Введение
Усиливающаяся тенденция к хранению информации в компьютерных структурированных источниках данных (СИД), с одной стороны, и широкое распространение глобальной компьютерной сети Интернет и средств доступа к ней, с другой, делают вопрос доступа к информации, хранящейся в СИД, одним из первостепенных в мире информационных технологий. Особенно остро этот вопрос стоит для класса пользователей, не являющихся специалистами в информационных технологиях, которые составляют большинство современных пользователей Интернет. Среди многих типов пользовательских интерфейсов к СИД естественно-языковые интерфейсы (ЕЯИ) являются актуальным, быстроразвивающимся способом доступа к СИД. Очевидно, естественно-языковые интерфейсы к СИД должны быть востребованы в ситуации, когда пользователь обращается к источнику данных, расположенному в Интернет, например, используя Web-броузер.
Широкому применению ЕЯ-интерфейсов для доступа к источникам данных препятствует ряд проблем. Основной проблемой является качество работы ЕЯ-интерфейсов, улучшение которого ограничено прежде всего сложностью анализа запросов на естественном языке, которая неизбежно упирается в проблему автоматического понимания естественного языка как такового. Вторая проблема связана с объемом усилий по созданию ЕЯИ и связана с высокой стоимостью построения естественно-языковых интерфейсов к произвольному источнику данных. В совокупности эти две проблемы можно охарактеризовать как требование снижения стоимости построения и поддержки ЕЯИ при повышении качества понимания ЕЯ-запросов и интеллектуальности ЕЯ-интерфейса в целом.
Отдельно следует обозначить требование мультиязычности в современных ЕЯ-интерфейсах, поскольку в условиях глобализации современного информационного мира потребность в обращении пользователей к СИД на различных естественных языках является столь же высокой, сколь и неудовлетворенной именно в области ЕЯ-запросов к СИД. По вполне понятным причинам английский язык в этом смысле находится в привилегированном положении, и интернационализация автоматического понимания естественного языка является благодатной точкой приложения усилий.
Анализ работ по тематике построения ЕЯ-интерфейсов к СИД показал, что основное внимание при разработке ЕЯИ уделяется прежде всего качеству понимания ЕЯ для определенной предметной области и для определенного языка, в то время как вопросам возможности портирования системы анализа на другой естественный язык, другую предметную область и другие платформы уделяется минимум внимания. Проблема портируемости тесно связана также с вопросами стоимости построения ЕЯ-интерфейса к заданному структурированному источнику.
Были поставлены следующие цели:
- уменьшение стоимости построения ЕЯ-интерфейсов к реальным базам данных. В эту цель как составляющие входят: минимизация количества и трудоемкости операций по созданию ЕЯ-интерфейса; минимизация или устранение работ по настройке, которые не мог бы выполнить настройщик, не обладающий навыками лингвиста и инженера знаний;
- повышение надежности понимания ЕЯ в интерфейсах к реальным базам данных различной сложности и в различных предметных областях;
- увеличение независимости системы анализа от конкретного естественного языка, конкретного типа СИД, конкретной предметной области и конкретной целевой платформы исполнения ЕЯ-интерфейса;
Для достижения поставленных целей выполнялись следующие задачи:
- анализ архитектур и методик построения ЕЯ-интерфейсов к структурированным источникам данных различных типов; анализ особенностей различных типов СИД и языков запросов к ним, влияющих на возможность построения ЕЯ-интерфейсов к ним; выбор архитектуры системы построения ЕЯ-интерфейсов; рассмотрение типов СИД было ограничено только теми типами, которые: а) наиболее распространены в настоящее время или имеют явную тенденцию к распространению, и б) имеют стандартные универсальные языки запросов. В результате в рассмотрение попали реляционные СУБД, объектные СУБД, XML-данные и ресурсы, описываемые в нотации RDF (Resource Description Framework).
- оптимизация методики построения мультиязычных ЕЯ-интерфейсов к реляционным базам данных на основе семантически-ориентированного подхода с применением методологии отделения предметной области от регистра ЕЯ-запросов к базам данных и дополнением анализа обработкой концептуальных структур;
- разработка компонентов анализатора ЕЯ-запросов, включающая:
- структуру сетевого представления модели предметной области (МПО), отражающей логическую и концептуальную структуру ПО;
- структуру сетевого представления промежуточного языка запросов в терминах модели предметной области (Q-язык);
- продукционную программу анализа естественного языка на основе семантически-ориентированного подхода, использующей логическую и концептуальную информацию МПО.
- разработка макетной версии системы построения ЕЯ-интерфейсов к реляционным базам данных. Данная задача была необходима для того, чтобы оценить преимущества методики построения ЕЯ-интерфейсов на реальных примерах, к реальным базам данных различной сложности и в различных предметных областях. В качестве целевого типа СИД были выбраны реляционные СУБД как наиболее распространенный тип структурированных источников данных на сегодняшний день.
Новизна данной работы состоит в создании средств и методов, целенаправленно повышающих портируемость системы анализа на различные естественные языки, и ставящих качество работы анализатора (надежность понимания) в прямую зависимость от усилий, затраченных на создание ЕЯ-интерфейса настройщиком (т.е. подготовленным пользователем).
В качестве одного из таких методов является дополнение логической структуры МПО концептуальными структурами (концептуализациями), независимыми от строения естественного языка и являющимися когнитивными по своей сути, а также дополнение семантически-ориентированного подхода анализа ЕЯ-запросов механизмами, позволяющими работать с такой концептуальной информацией. Это дополнение приводит к более адекватному представлению предметной области с точки зрения естественного языка. С другой стороны, разбиение МПО на концептуализации дает более многоплановое и вместе с тем конкретное представление отдельных аспектов МПО.
Вторым методом повышения надежности понимания ЕЯ является введение количественных методов в систему анализа, позволяющие более эффективно разрешать неоднозначность смысла лексем в запросе. При этом введены количественные параметры: сила контекстной связи и сила связи по предметной области между лексемами. С помощью количественных характеристик (весов) принимается решение о выборе главного объекта запроса, также с применением количественных параметров выбирается определяющая для запроса концептуализация.
Источник:
Дополнительно
Дисертация Владислава Жигалова
http://www.aha.ru/~zhigalov/science/disser.zip - Word'97 (zip - 336k)