Морфологический анализ научного текста несловарного типа

Рассматриваются принципы анализа текста.

В современных системах МА существуют два основных принципа выведения морфологических признаков слова с помощью анализа его структуры:

Представление грамматической информации в словаре основ и в словаре флексий (с включением формальной процедуры деления слова на основу и окончание и последующее сравнение со словарями).
Извлечение грамматической информации из слова путем его графемного анализа.

В описываемой системе, представляющей собой подсистему автоматического анализа научно-реферативного текста, выбирается второй принцип. Используется он на первом этапе анализа, допускающем приписывание единицам текста дизъюнктивных кодов, репрезентирующих грамматические омонимы. Обусловлено это тем, что любой морфологический анализ (МА), проводимый в пределах слова, не может обеспечить стопроцентного однозначного определения его морфологических характеристик, поскольку проявление последних в действительности происходит в синтагматике, на уровне связей слов в предложении. Поэтому в системе МА предусмотрен второй этап анализа, который корректирует результаты первого с помощью анализа грамматического контекста единиц с дизъюнктивными кодами.

Кроме того, и на первом, и на втором этапах МА в отдельных случаях возникает необходимость обращения к информации о значении слова, например для снятия грамматической омонимии существительных. Предлагается задание списка лексем или отдельных лексем в виде цепочек начальных буквосочетаний слова, общих для всех словоформ. Возможность задавать семантическую информацию таким образом вытекает из ограниченности лексического состава текстов анализируемого подъязыка (в тексте длиной 108 тысяч словоупотреблений различных лексем знаменательных лексем насчитывается всего 6653). Доля использования семантической информации при флективном анализе - 11,5 %, при контекстном анализе - 9,1 %.

Общие задачи МА можно определить следующим образом:

Однозначное идентифицирование единиц текста в терминах лексико-грамматических классов.
Определение внутри класса словоизменительных характеристик словоформ (грамматический подкласс).
Сведение словоизменительных парадигм, приведение словоформ одной лексемы к канонической форме.

Работе алгоритмов собственно морфологического анализа предшествует процедура предредактирования вводимых в машину текстов, ориентированная не только на нужды МА, но и на последующие задачи всей системы автоматического анализа текста. Кроме разбиения текста на машинные слова (слова в форме, удобной для распознования их машиной): пробелами отделяются все знаки препинания, кроме тех случаев, когда они выступают не в своей основной синтаксической функции, текст должен быть также размечен: заглавия реферата и абзацев внутри него. В данной системе приходится еще редактировать текст, приводя в соответствие множество символов естественного языка и представления их в машине. Вместо символов, отсутствующих в устройстве ввода/вывода, ставятся особые пометы, например заглавные буквы, если они не относятся к начальному слова предложения, отмечаются звездочкой и знаком >, если в слове больше одной заглавной, то впереди ставится цефра, указывающая на их количество: 7>фортран (=ФОРТРАН).

Записанный в такой форме текст поступает на вход системы МА. Данная система состоит из пяти подсистемы. В задачи подсистемы 1 входит:

выделение тестовых единиц, требующих собственного МА;
анализ слов, не имеющих морфологического статуса, типа формул, сокращенных словосочетаний, слов из букв латинского алфавита; Морфологическим статусом обладают все слова, имеющие в совем составе только русские прописные буквы или ограниченное кол-во знаков препинания, как-то дефис, косая черта и т.п., а также слова, ничинающиеся цепочкой цифр или латинских букв, за которыми следует дефис, и последефисная часть слова состоит из русских прописных букв: 15-й.
выявление ошибок, допущенных при перфорации текста.

Подсистема 2 предназначена для обработки текстовых единиц, получивших в процессе предредактирования метку заглавной буквы. Используется открытый список наиболее частотных аббревиатур (ЭВМ) и некоторые словоупотребления, сокращения

Подсистема 3 определяет коды грамматических классов для слов на основе анализа их графемной структуры.

Подсистема 4 определяет коды грамматических подклассов в пределах класса с помощью графематического анализа. Алгоритмы определения подклассов разные для местоимений, наречий, кратких причастий и прилагательных, существительных, слов адъективного типа. Например, род существительного определяется с вероятностью 99,98 % по графемному составу основы. В работе алгоритма определения подкласса существительного каждой словоформе присваивается двухсимвольный код, первая позиция - род, вторая число и падеж, всего выделяются 42 однозначных подклассов и 34 дизъюнктивных (типа компонент - м.р./вин. ед. и ж.р./ род. мн.).

В функции подсистемы 5 входит снятие грамматической омонимии классав и подклассов, полученной в результате работы алгоритмов 2,3,4, на основе контекстного анализа.

В автономном режиме работает только контекстный анализ. Его работа начинается после того, как все слова текста обработаны предшествующими алгоритмами и на вход поступает текст, в котором каждое машинное слово, отличное от знака препинания, снабжено двухбуквенным кодом, первая из которых - код класса, вторая - код подкласса. Коды грамматических омонимов содержат в себе информацию о возможных грамматических значениях данной словоформы, например:

Р - существительное/предлог (путем),
D - существительное/глагол (начала, суть),
Ы- союз/частица/наречие (только) и т.д.)

Основная часть алгоритмов несловарного морфологического анализа сосредоточена в третьей подсистеме, которая должна единицы текста в терминах грамматических классов на основе списка квазифлексий.. Ограниченность лексической системы используемого подъязыка и типа текстов и делает возможным применения принципа определения грамматической информации по квазифлексиям в качестве основного инструмента МИ и отказ вообще от словаря основ как главной базы МА. На вход данного алгоритма после работы подсистем 1,2 поступает 93,54 % текстовых единиц.

Автоматическое построение списка квазифлексий для морфологической идентификации словоформ в тексте предполагает:

Ручное построение обучающей выборки на фрагменте введенного в ЭВМ текста. Для ручной частеречной кодировки принята детализированная система классов слов:

существительное	И
полное прилагательное	Я
полное причаcтие	Е
глагол	Г
наречие	Н
краткое прилагательное	Ю
краткое причаcтие	У

нераспознанные по алгоритму слова, и т.п.
Омонимичные словоформы типа для ее обработки и чтобы ее обработать разграничиваются.

Автоматическое построение инверсионного словаря и автоматический вывод списка квазифлексий
Ручную проверку и уточнение результатов автоматической морфологической идентификации словоформ в новом тексте
Автоматическое пополнение инверсионного словаря словоформ обучающей выборки автоматическую перестройку списка квазифлексий.

При контекстном анализе КА, разработанных для снятия грамматической омонимии отдельных слов по окружению, наибольшей диагностицирующей силой обладают грамматические контексты, представленные предлогами, контекстами, краткими причастиями и прилагательными, существительными, подчинительными союзами и местоимениями и наречиями-союзных слов, а также знаки препинания. Все названные элементы текста используются во всех без исключения алгоритмах КА, в качестве опорных точек ОТ. При этом дизъюнкция класса/подкласса может сниматься по пересечению содержащейся в нем информации с грамматической информацией ОТ, образующей левую или правую, а также обе границы (снятие омонимии падежа существительного по предлогу слева, снятие омонимии классов Z (полное прилагательное/наречие); Y (краткое прилагательное/наречие) по расположенному справа глаголу; анализ дизъюнктивных кодов словоформ, принадлежащих к адъективным классам).

Алгоритм включает разные ситуации, как-то именная ситуация(SIT NOUN), глагольная(SIT VERB), предложная (SIT PREP), ситуацию аббревиатуры (SIT U) и прочие. Опорные точки могут образовывать ситуацию в сочетании с нектороми грамматическими классами, например ситуация POINT определяется тире + частица ЭТО, запятая + наречие когда, где. Анализ производится слева направа, начиная с первого элемента текста, и состоит из двух частей: входа, формирующего ситуацию и собственно контектного анализа, при этом ищутся опорные точки, формируется ситуация и по правилам КА снимаются дизъюнктивные классы.

Анализ результатов машинных экспериментов работы описаннойй системы МА на рефератах по кибернетике и системам связи показал высокую степень эффективности сочетания флективного и контекстного анализа при автоматическом МА, ориентированном на подъязык научно-реферативных текстов широкой тематики. Неразграниченные омонимы грамматических классов составляют всего 3,93 % текста. Количество словоформ с неснятой омонимией подклассов равно 10,34 %. Это объясняется, прежде всего, необходимостью привлечения анализа целого предложения (краткое прилагательное в роле подлежащего) и анализа контекстных связей, выходящих за пределы предложения (анализ эллиптических конструкций, снятие омонимии местоименных классов). Ниже приводится пример машинной кодировки, полученной после флективного и контекстных анализов.

При идентификации грамматического стутуса каждого класса и подкласса слов в алгоритме МА используется различное количество правил и разные типы правил. В основу системы правил МА положена языковая и текстовая информация разного типа, в том числе:

графемная структура словоформ.
Позиционные закономерности употребления словоформ в тексте.
Дистрибуция словоформ и их соположение в тексте.
Дистрибуция словоформ, учитывающая их грамматические связи.
Лексическая информация.

АВТОКОРРЕЛЯЦИОННАЯ(ЯЖ) СТРУКТУРА(КИ) ГЕНЕРАТОРА(ЙР) СЛУЧАЙНЫХ(КЕ) ЧИСЕЛ(ЛЕ) 1>ТАУСВОРТА(ЙР).

ОСНОВЫВАЯСЬ(Д) НА(ПП) ЗНАНИИ(ЛП) АВТОКОРРЕЛЯЦИОННЫХ(ЯЕ) ФУНКЦИЙ(КЕ) ДЛЯ(ПР) ЛЮБЫХ(ОЕ) ПОВТОРЯЮЩИХСЯ(АЕ) ЧЛЕНОВ(ЙЕ) ПОСЛЕДОВАТЕЛЬНОСТИ(КР) , АВТОРОМ(ЙТ) ДАН(УМ) АЛГОРИТМ(ЙИ), ДЛЯ(ПР) ОПРЕДЕЛЕНИЯ(ЛР) АВТОКОРРЕЛЯЦИОННОЙ(ЯЗ) СТРУКТУРЫ(КР) НОВОЙ(ЯЗ) ПОСЛЕДОВАТЕЛЬНОСТИ(КР).

Источник: Рефераты