Разделы
Счетчики
Автоматическая Обработка Текста
Графематический анализ. Морфологический анализ. Синтаксический анализ. Семантический анализ.
URL:
Наши технологии базируются на многоуровневом представлении естестевенного языка, которое, в свою очередь, было заимствовано у системы ФРАП (Система французско-русского автоматического перевода была разработана коллективом лаборатории машинного перевода Всесоюзного центра переводов совместно с коллективом лаборатории машинного перевода МГПИИЯ им М. Тореза. 1976-1986 ГГ.)
Компоненты, составляющие языковую модель, - лингвистические процессоры, которые друг за другом обрабатывают входной текст. Вход одного процессора является выходом другого. Выделяются следующие компоненты:
Графематический анализ. Выделение слов, цифровых комплексов, формул и т.д.
Морфологический анализ. Построение морфологической интерпретации слов входного текста.
Синтаксический анализ. Построение дерева зависимостей всего предложения.
Семантический анализ. Построение семантического графа текста.
Для каждого уровня разрабатывался свой язык представления. Язык представления, как полагается, состоит из констант и правила их комбинирования. На графематическом уровне константами были графематические дескрипторы (ЛЕ – лексема, ЦК – цифровой комплекс и т.д.) На морфологическом уровне – граммемы (рд – родительный падеж, мн -множественное число). На синтаксическом – названия отношений и групп (ПОДЛ – отношение между подлежащим и сказуемым, ПГ - предложная группа). На семантическом – семантические категории и отношения.
С каждого уровня представления можно сделать переход к такому же представлению на другом естественном языке (трансфер), что позволяет осуществлять перевод, даже если "глубокий" (семантический) анализатор не смог обработать текст. Основой для построения уровней служили результаты работы предыдущих этапов, но, что важно, последующие анализаторы также могли улучшить представление предыдущих. Например, для какого-то предложения синтаксический анализатор не смог построить полного дерева зависимостей, тогда, возможно, семантический анализатор сможет спроектировать им построенный семантический граф на синтаксис.
АОТ - рабочая группа молодых специалистов, разрабатывающих программное обеспечение в области автоматической обработки текста. В круг наших интересов в основном входит анализ русского языка.
Наш подход скорее можно назвать консервативным, чем революционным. Мы не верим ни в какую общую суперидею, объясняющую сущность естественного языка. Вместе с тем мы считаем, что только грамотная декомпиляция языковых механизмов позволит максимально приблизить человеческий язык к современному компьютеру.
Начиная с 2002 года мы выкладываем наши разработки с лицензией LGPL. Теперь каждый может бесплатно использовать наши библиотеки в своих программах, в том числе и в коммерческих приложениях.
Мы призываем всех, кто заинтересован в развитии компьютерной лингвистики, к широкому сотрудничеству.
© 2003 АОТ
Наши корни
Наши корни – факультет лингвистики в РГГУ. Большинство из нас - выпускники этого факультета, некоторые учатся в аспирантуре, некоторые уже получили кандидатскую степень. Традиционное деление нашей группы на программистов и лингвистов возникло из того, что на факультете лингвистики существовало отделение Искусственного Интеллекта(ИИ), где учили программированию больше, чем на основном потоке. Лингвист с основного потока проходил курсы фонетики, морфологии, синтаксиса, семантики, типологии, компаративистики и т.д. Он обязательно изучал по крайней мере два иностранных языка, хотя обычно количество изучаемых языков было три. Студент ИИ имел один обязательный курс иностранного языка (обычно два), лингвистические курсы, математику(матан, дискретка, логики, линейная алгебра и т.д.) и море программирования (С,С++, Pascal, Prolog, Lisp, Delphi, SQL, Java). Большинство выпускников основного потока становятся переводчиками и секретарями, тогда как большинство выпускников ИИ становятся программистами. Но некоторая часть людей захотела заниматься проектами, связанными с автоматической обработкой текста, т.е. приложением теоретической лингвистики к современным компьютерным технологиям. Но эта наклонность возникла не на пустом месте, ему предшествовало долгое обучение и разговоры с людьми, которых мы считаем своими учителями.
Коммерческие программные продукты
Графематика
Разделение на слова, цифровые комплексы; выделение дат, URL, неизменяемых оборотов. Деление на предложения, абзацы, построение макросинтаксической структуры.
Скорость: 5000 слов в секунду
Windows: COM-модуль+исходники
Linux: исходники
Морфология
Русская и английская морфология (анализ и синтез), алгоритм морфологического предсказания, частотные словари.
Скорость: 7000 слов в секунду
Windows: COM-модуль+исходники
Linux: исходники
Скачать демо-версию
Работа с морф. словорями
Система пополнения и редактирования морфологических словарей.
Windows: MFC-оболочка+исходники
Постморфология
Система быстрого уничтожения омонимии по контексту (постморфология).
Скорость: 7000 слов в секунду
Windows: COM-модуль+исходники
Синтаксис
Система синтаксического и фрагментационного анализа.
Скорость: 300 слов в секунду
Windows: COM-модуль+исходники
Скачать демо-версию
Семантика
Система первичного семантического анализа.
Скорость: 30 слов в секунду
Windows: COM-модуль+исходники
Финансовый тезаурус
Финансовый русско-английский тезаурус.
Объем: 5000 входов
Компьютерный тезаурус
Компьютерный тезаурус.
Объем: 3000 входов
РОСС
Русский общесемантический словарь.
Объем: 4000 входов
АОСС
Английский общесемантический словарь.
Объем: 3000 входов