Технология построения естественно-языковых интерфейсов к структурированным источникам данных
Содержание
- Введение
- Естественно-языковые интерфейсы к структурированным источникам данных
- Метод построения ЕЯ-интерфейсов к структурированным источникам данных
- Система анализа естественного языка
- Модель предметной области
- Структура Q-языка
- Интегрированная среда построения ЕЯ-интерфейсов к к реляционным БД
- Заключение
- Список используемой литературы
Введение
Усиливающаяся тенденция к хранению информации в компьютерных структурированных источниках данных (СИД), с одной стороны, и широкое распространение глобальной компьютерной сети Интернет и средств доступа к ней, с другой, делают вопрос доступа к информации, хранящейся в СИД, одним из первостепенных в мире информационных технологий. Особенно остро этот вопрос стоит для класса пользователей, не являющихся специалистами в информационных технологиях, которые составляют большинство современных пользователей Интернет. Среди многих типов пользовательских интерфейсов к СИД естественно-языковые интерфейсы (ЕЯИ) являются актуальным, быстроразвивающимся способом доступа к СИД. Очевидно, естественно-языковые интерфейсы к СИД должны быть востребованы в ситуации, когда пользователь обращается к источнику данных, расположенному в Интернет, например, используя Web-браузер.
Широкому применению ЕЯ-интерфейсов для доступа к источникам данных препятствует ряд проблем. Основной проблемой является качество работы ЕЯ-интерфейсов, улучшение которого ограничено прежде всего сложностью анализа запросов на естественном языке, которая неизбежно упирается в проблему автоматического понимания естественного языка как такового. Вторая проблема связана с объемом усилий по созданию ЕЯИ и с высокой стоимостью построения пригодных к использованию естественно-языковых интерфейсов к произвольному источнику данных. В совокупности эти две проблемы можно охарактеризовать как требование снижения трудоемкости построения и поддержки ЕЯИ при повышении качества понимания ЕЯ-запросов и интеллектуальности ЕЯ-интерфейса в целом.
Отдельно следует обозначить требование мультиязычности в современных ЕЯ-интерфейсах, поскольку в условиях глобализации современного информационного мира потребность в обращении пользователей к СИД на различных естественных языках является столь же высокой, сколь и неудовлетворенной именно в области ЕЯ-запросов к СИД. По вполне понятным причинам английский язык в этом смысле находится в привилегированном положении, и интернационализация автоматического понимания естественного языка является благодатной точкой приложения усилий, и в рамках данной работы рассматривается как необязательность совпадения языков СИД и запросов.
Анализ работ по тематике построения ЕЯ-интерфейсов к СИД показал, что основное внимание при разработке ЕЯИ уделяется прежде всего качеству понимания ЕЯ для определенной предметной области и для определенного языка, в то время как вопросам возможности портирования системы анализа на другой естественный язык, другую предметную область и другие платформы уделяется минимум внимания. Проблема портируемости тесно связана также с вопросами трудоемкости построения ЕЯ-интерфейса к заданному структурированному источнику.
Были поставлены следующие цели:
- минимизация количества и трудоемкости операций по созданию ЕЯ-интерфейса;
- повышение надежности понимания ЕЯ в интерфейсах к реальным базам данных различной сложности и в различных предметных областях;
- увеличение независимости системы анализа от конкретного естественного языка, конкретного типа СИД, конкретной предметной области и конкретной целевой платформы исполнения ЕЯ-интерфейса;
Для достижения поставленных целей выполнялись следующие задачи:
- анализ архитектур и методов построения ЕЯ-интерфейсов к структурированным источникам данных различных типов; анализ особенностей различных типов СИД и языков запросов к ним, влияющих на возможность построения ЕЯ-интерфейсов к ним; выбор архитектуры системы построения ЕЯ-интерфейсов. Рассмотрение типов СИД было ограничено только теми типами, которые: а) наиболее распространены в настоящее время или имеют явную тенденцию к распространению, и б) имеют стандартные универсальные языки запросов. В результате в рассмотрение попали реляционные СУБД, объектные СУБД, XML-данные и ресурсы, описываемые в нотации RDF (Resource Description Framework).
- разработка технологии построения мультиязычных ЕЯ-интерфейсов к структурированным источникам данных на основе семантически-ориентированного подхода с применением методологии отделения предметной области от регистра ЕЯ-запросов к базам данных и дополнением анализа обработкой концептуальных структур;
- разработка компонентов анализатора ЕЯ-запросов, включающая:
- структуру сетевого представления модели предметной области (МПО), отражающей логическую и концептуальную структуру ПО;
- структуру сетевого представления промежуточного языка запросов в терминах модели предметной области (Q-язык);
- продукционную программу анализа естественного языка на основе семантически-ориентированного подхода, использующей логическую и концептуальную информацию МПО.
- разработка экспериментальной версии системы построения ЕЯ-интерфейсов к реляционным базам данных. Данная задача была необходима для того, чтобы оценить преимущества разработанного метода построения ЕЯ-интерфейсов на реальных примерах, к реальным базам данных различной сложности и в различных предметных областях. В качестве целевого типа СИД были выбраны реляционные СУБД как наиболее распространенный тип структурированных источников данных на сегодняшний день.
Новизна данной работы состоит в создании средств и методов, целенаправленно повышающих портируемость системы анализа на различные естественные языки и предметные области, и ставящих качество работы анализатора (надежность понимания) в прямую зависимость от усилий, затраченных на создание ЕЯ-интерфейса настройщиком (т.е. подготовленным пользователем).
Одним из таких методов является дополнение логической структуры МПО концептуальными структурами (концептуализациями), независимыми от строения естественного языка и являющимися когнитивными по своей сути, а также дополнение семантически-ориентированного подхода анализа ЕЯ-запросов механизмами, позволяющими работать с такой концептуальной информацией (п. 3.2). Это дополнение приводит к более адекватному представлению предметной области с точки зрения естественного языка. С другой стороны, разбиение МПО на концептуализации дает более многоплановое и вместе с тем конкретное представление отдельных аспектов МПО.
Вторым методом повышения надежности понимания ЕЯ является введение количественных методов в систему анализа, позволяющие более эффективно разрешать неоднозначность смысла лексем в запросе. При этом введены количественные параметры: сила контекстной связи и сила связи по предметной области между лексемами. С помощью количественных характеристик (весов) принимается решение о выборе главного объекта запроса, также с применением количественных параметров выбирается определяющая для запроса концептуализация (п. 3.3).
В результате анализа была выбрана архитектура системы построения ЕЯ-интерфейсов с промежуточным языком запросов, как наиболее отвечающая целям отделения системы анализа от конкретной предметной области и конкретных типов источников данных (п. 1.1). Концепция промежуточного уровня системы анализа, включающая триаду "продукционная программа - МПО - промежуточный язык запросов" была выбрана таким образом, чтобы максимально отразить в МПО особенности строения различных типов СИД. Эта триада была реализована с помощью инструмента SNOOP, реализующего формализм объектно-ориентированной семантической сети. И модель предметной области, и рабочая сеть анализа ЕЯ-запроса, и выходное дерево Q-запроса строятся из одних и тех же классов узлов (компонентов), что позволило использовать данный формализм наиболее эффективно.
Задача разработки модели предметной области и промежуточного языка была ограничена разработкой концепции и структуры, причем было принято решение отказаться от разработки языков с традиционным синтаксисом. Такое решение обусловлено тем, что создание и поддержка ЕЯ-интерфейса должна выполняться предположительно не программистом, а работать с ЕЯ-интерфейсом будут "наивные" пользователи, которых строгий синтаксис промежуточного языка запросов может отпугнуть. Вместо задания традиционного синтаксиса и неизбежной в таких случаях разработки компиляторов и синтаксических парсеров, было принято решение облечь структуру как МПО, так и Q-языка в XML-синтаксис.
Это позволило применять для работы с этими структурами (при построении и редактировании МПО, а также при выводе Q-запроса и переводе его на язык запроса конкретного СИД) универсальные программные компоненты работы с XML, а также делает данную технологию открытой для интеграции с другими системами - XML является сегодня стандартом обмена информации между различными системами. Кроме того, формат XML является текстовым и пригоден для непосредственного просмотра и редактирования, что может быть полезным при отладке как системы построения ЕЯИ, так и самих ЕЯИ.
К основным результатам диссертации можно отнести следующие:
- Разработан современный метод построения ЕЯ-интерфейсов к структурированным источникам данных, базирующийся на семантически-ориентированном подходе к анализу ЕЯ-текста в ограниченной предметной области и ее модели и обеспечивающий независимость организации процесса создания интерфейса от конкретного естественного языка, предметной области, типа источника данных.
- Разработана архитектура лингвистического процессора, реализующего анализ ЕЯ-запросов к информационным системам с использованием аппаратов концептуальных структур и семантической сети для организации процесса анализа входного ЕЯ-текста, а также представления модели предметной области и содержания промежуточного языка запросов.
- Разработана архитектура технологической обстановки, обеспечивающей высокий уровень автоматизации процесса конструирования ЕЯ-интерфейсов на основе лингвистического процессора из готовых настраиваемых компонентов и библиотек.
- Разработана и программно реализована экспериментальная система построения ЕЯ-интерфейсов, представляющая собой интегрированную среду, поддерживающую все этапы процесса конструирования, тестирования и отладки ЕЯ-интерфейсов к реляционным базам данных.
На защиту выносятся:
- Технология построения ЕЯ-интерфейсов к реляционным базам данных на основе семантически-ориентированного подхода, как итерационного процесса с применением предопределенных библиотек и тезаурусов, использованием мастеров (визардов), облегчающих процесс создания ЕЯ-интерфейса.
- Структура модели предметной области (МПО), включающей схему классов ПО, концептуальные структуры, хранилище семантических компонентов и (частично) словарь.
- Структура промежуточного языка запросов в терминах модели предметной области, позволяющего абстрагироваться от особенностей строения конкретного СИД.
- Концепция продукционной программы анализа естественного языка на основе семантически-ориентированного подхода, с применением расширенных средств разрешения неоднозначности, с использованием информации логической и концептуальной схем МПО
Первая глава содержит обзор основных архитектур, составных частей и характеристик ЕЯ-интерфейсов, кратко описаны типы СИД, рассматриваемые в данной работе, и языки запросов к ним; обосновывается выбор основополагающих архитектуры и подхода к анализу ЕЯ.
Во второй главе рассматривается технология построения естественно-языковых интерфейсов к СИД, рассмотрены основные принципы, этапы построения, приводится диаграмма создания ЕЯИ.
Третья глава описывает разработанную систему анализа ЕЯ, которая включает продукционную программу и набор базовых семантических классов. Рассмотрены дополнения семантически-ориентированного анализа и их влияние на качество работы системы.
В четвертой главе излагается концепция, структура и реализация модели предметной области. Пятая глава содержит описание идеологии и структуры языка промежуточного уровня - Q-языка.
В шестой главе рассматривается разработанная интегрированная система построения ЕЯ-интерфейсов к реляционным базам данных. Рассмотрена общая архитектура системы, описаны основные компоненты.
В приложениях приводятся:
- Примерный список корректно понимаемых ЕЯ-запросов к тестовой базе данных "Кадры"
- Примеры анализа запросов к базе данных "North Wind"
- Список семантических компонентов анализа
Продолжение: см. архив (Word) (275 kb)
Источник: