Счетчики








Разработка системы обрабатывающей текст естественного языка на основе семантической нейронной сети

Шуклин Д.Е.

Прогресс информационных технологий в немалой степени зависит от решения проблемы обработки текстов естественного языка. Построение вычислительной системы, обрабатывающей текст на естественном языке невозможно без решения подзадач, на которые разбивается задача понимания. Реализацию подзадачи разбора следует выполнить, разделив ее по уровням абстракции на несколько последовательных уровней разбора: морфологический разбор, синтаксический разбор и семантический анализ.

Для решения задач морфологического и синтаксического анализа текста, а так же задач анализа словоизменения применим семантическую нейронную сеть[1], близкую по свойствам формальной нейронной сети Неймана-Маккаллока-Питтса[2]. В подсети извлечения смысла из текста, отдельный нейрон обозначает элементарное понятие, соответствующее этапу обработки, к которому относится данный подслой нейронной сети. Элементарными понятиями являются любые понятия естественного языка с законченным смыслом, такие как символ, слог, слово, словосочетание, предложение, абзац, весь текст. Различным этапам обработки соответствуют различные уровни агрегации элементарных понятий, например: символ, слог, слово, словосочетание.

В качестве структуры семантической нейронной сети, выполняющей морфологический и синтаксический разбор, применим синхронизированное линейное дерево[3,4]. Синхронизированное линейное дерево состоит из слоев нейронов. Каждому слою соответствует фронт волны обработки. Нейроны первого слоя соответствуют первой букве слова, второго - второй и так далее. Общее количество подслоев равно максимальному количеству букв в одном слове. Первый слой состоит из нейронов, распознающих первую букву, второй слой состоит из нейронов распознающих первые две буквы, третий - первые три буквы [3, рис.1]. Каждый слой состоит из классифицирующего подслоя не синхронизированных дизъюнкторов и распознающего подслоя синхронизированных конъюнкторов[3, рис.2,3]. Несинхронизированные дизъюнкторы из подслоя агрегирования и связанные с их аксонами синхронизированные конъюнкторы фронта волны объединены в одном логическом элементе[4].

У каждого такого элемента будет по два дендритных дерева, одно - выполняющее функцию дизъюнкции входных градиентных значений, второе - функцию конъюнкции входных градиентных значений и результата функции дизъюнкции. Этот логический элемент представляет собой ансамбль из двух нейронов, назовем его дизконъюнктором (рис.1).


Рис. 1. Структура дизконъюнктора.

Процесс разбора текста в синхронизированном линейном дереве протекает как некоторый процесс, распределенный во времени. Каждому кванту времени в синхронизированном линейном дереве соответствует фронт волны обработки. Время представляет собой последовательность квантов. Последовательность квантов организована в виде линии, в которой каждый квант времени связан с предшествующим и последующим квантами. Результатом разбора, извлеченным из обработанной части текста в течение одного кванта времени, является мгновенное состояние синхронизированного линейного дерева.

Линия времени представляет собой группу нейронов. Каждому кванту времени соответствует некоторый фронт волны обработки, и некоторый нейрон линии времени. Нейроны линии времени связаны друг с другом и образуют линию, в которой каждый нейрон имеет связи с двумя другими нейронами линии времени: с одним нейроном предыдущего кванта времени и с одним следующего кванта. Каждый нейрон линии времени образует семантические связи со всеми дизконъюнкторами синхронизированного линейного дерева, возбужденными в соответствующий квант времени. Это множество возбужденных дизконъюнкторов образует волну обработки соответствующую нейрону линии времени, с которым образованы связи.

Все дизконъюнкторы, которые находятся в возбужденном состоянии в некотором кванте времени, связаны семантическими связями с соответствующим этому кванту нейроном линии времени. Поэтому, возможно полностью исключить обмен градиентными данными между дизконъюнкторами и полностью лишить нейрон своего внутреннего состояния, в том числе и возбуждения. Состояние дизконъюнктора возбужден / пассивен в данный момент времени определяется по тому, имеет ли этот дизконъюнктор связи с соответствующим нейроном линии времени (рис.2). Поэтому, синхронизированное линейное дерево может быть представлено в памяти машины в виде графа, в котором узлы и однонаправленные связи нагружены дополнительными атрибутами, а нейроны (узлы) не имеют внутреннего состояния.


Рис.2.Общий вид бинарного синхронизированного линейного дерева с линией времени.

Обработку текста естественного языка принято разделять на операции морфологического и синтаксического разбора, семантического анализа и синтеза. Операции морфологического и синтаксического разбора реализуем двумя синхронизированнными линейными деревьями (рис.3). Каждое такое дерево обрабатывает понятия своего уровня абстракции. Обработка предложения на этих уровнях организована последовательно, уровень морфологического разбора готовит данные для уровня синтаксического разбора. Для каждого линейного дерева организуется своя линия времени.


Рис. 3. Блок-схема системы обрабатывающей естественный язык

  1. Слой рецепторов;
  2. Линейное дерево морфологического разбора;
  3. Линейное дерево синтаксического разбора;
  4. Экспертная система с моделью предметной области;
  5. Слой синтеза реакций системы (синтеза текста);
  6. Слой эффекторов;
  7. Коммутатор;
  8. Внешняя среда.

Линейное дерево уровня морфологического разбора 2 выполняет выделение из текста отдельных слов, распознавание и разбиение этих слов на морфемы, и определение для каждого слова на основе произведенного разбора признаков, требуемых для синтаксического разбора. Линейное дерево уровня синтаксического разбора 3 проводит подготовительную работу, необходимую для полноценного семантического разбора. Синтаксический разбор определяет синтаксическую структуру текста, синтаксические связи между словами и синтаксические признаки слов входящих в этот текст [5, стр. 34].

Семантический анализ содержимого текста реализуем, используя модель предметной области в виде нейронной экспертной системы [6]. Задачей уровня семантического анализа 4 является формирование имитационной модели фрагмента реальности, описываемой обрабатываемым текстом. Такая модель не может быть сформирована на данных, содержащихся только в анализируемом тексте. Формирование модели требует наличия в памяти системы модели реальности, в которой существует эта понимающая система. Уровень семантического анализа возбуждает модели понятий, находящиеся в памяти системы в соответствии с понятиями, извлеченными из текста предыдущими уровнями разбора. Совокупность возбужденных моделей понятий образует семантически связанную модель фрагмента реальности, описываемого анализируемым текстом.

Операцию синтеза текста 5 реализуем программно, путем восстановления текста по возбужденному нейрону-эффектору в синхронизированном линейном дереве. Коммутатор 7 содержит в себе очередь символов текста, обрабатываемых системой. Входной текст из внешней среды 8 попадает в коммутатор 7, и пройдя через него на слой рецепторов 1. Со слоя эффекторов 6 символьная последовательность попадает в коммутатор 7. Если символьная последовательность является внешней реакцией системы, то коммутатор 7 передает ее во внешнюю среду 8. Если символьная последовательность является промежуточным результатом, то коммутатор 7 подает ее на слой рецепторов 1. В результате, в системе возникает семиотическая обратная связь. Наличие внутренних спецсимволов, циркулирующих по контуру семиотической обратной связи, позволяет на примитивном уровне реализовать операции планирования беседы и управления вниманием в пределах нескольких обсуждаемых тем. Можно видеть, что процессы, возникающие в описанной системе, напоминают известные из психологии феномены внутреннего монолога и самосознания [7].

Литература

  1. З.В.Дударь, Д.Е.Шуклин Семантическая нейронная сеть, как формальный язык описания и обработки смысла текстов на естественном языке / Радиоэлектроника и информатика. Х.: Изд-во ХТУРЭ, 2000. - №. 3. С. 72-76.
  2. Дж. фон Нейман Теория самовоспроизводящихся автоматов/ закончено и отредактировано А. Бёрксом.- М.: "Мир", 1971. - 384 с.
  3. Д.Е.Шуклин Структура семантической нейронной сети извлекающей в реальном времени смысл из текста / Кибернетика и системный анализ. Киев. Изд-во Института кибернетики НАН Украины, 2001. - № 2. С. 43-48.
  4. Д.Е.Шуклин Структура семантической нейронной сети, реализующей морфологический и синтаксический разбор текста / Кибернетика и системный анализ. Киев. Изд-во Института кибернетики НАН Украины, 2001. - № 5. С. 172-179.
  5. Виноград Т. Программа, понимающая естественный язык. - М.: "Мир", 1976. - 296 с.
  6. Д.Е.Шуклин Применение семантической нейронной сети в экспертной системе, преобразующей смысл текста на естественном языке / Радиоэлектроника и информатика. Х.: Изд-во ХТУРЭ, 2001. - №. 2. С. 61-65.
  7. Кучинский Г.М. Психология внутреннего диалога. Мн.: Университетское, 1988. - 206 с.

Дополнительно

  • Категория: Семантические сети
  • Источник1: http://www.shuklin.com/ai/ht/ru/ai00011f.aspx
  • Источник2: http://eidolon.euro.ru/ai00010s.htm
  • Eidolon
  • Шуклин Д.Е. Разработка системы обрабатывающей текст естественного языка на основе семантической нейронной сети // Материалы международной научно-технической конференции "Искусственный интеллект - 2002". Т. 2. Таганрог: Изд-во ТРТУ, 2002. С.310-314