Разделы
Счетчики
Язык людей и язык машин
Разговор с электрическим мозгом
Язык - это то, что в первую очередь присуще человеку... Как же можно говорить о языке машин? В лучшем случае электронный помощник человека - это орудие памяти и связи, действующее, так сказать, во времени (память) и в пространстве (связь). Примером тому телефон и радио, книгопечатание и фотография, кинематограф и телевидение, телеграф и звукозапись, они отлично справляются с задачами: сохранять и распространять информацию.
Но современные электронно-вычислительные машины гораздо сложнее. Они не только сохраняют и распространяют информацию, но и перерабатывают ее. Вот это и приводит машины к совершенно новым качествам. Не зря же известный английский ученый Джон Бернал говорит: "Теперь счетные устройства и их коды могут материально воплотить человеческую мысль в совершенно новые формы, в какой-то мере заменить язык. И даже пойти в своем развитии дальше языка". Такой разговор сегодня можно слышать из уст авторитетных специалистов.
С точки зрения точных наук наш человеческий язык - это не что иное, как код передачи информации. Язык родился в период очеловечивания полуобезьяны-получеловека, а сегодня язык - это самая активная и самая действенная сила общения между людьми.
Сколько языков на земле? Ведь каждый континент, каждая национальность, а порой и племя говорят на своем собственном языке. Поэтому первый вопрос, который надо поставить: сколько народов живет на земном шаре?
Последние, однако далеко еще не полные исследования говорят о том, что в мире существует около двух тысяч народов. Так, в зарубежной Европе можно насчитать около 50 народов, из которых 75 миллионов немцев, 50 миллионов итальянцев, 43 миллиона англичан... В зарубежной Азии живет около 800 народов, в Северной и Южной Америке более 300 народов, в Австралии и Океании свыше 200 народов. В нашей стране насчитывается более 100 народов. Самые многочисленные из них русские - 120 миллионов, украинцы - около 39 миллионов, белорусы - 8 миллионов.
Но языков и диалектов в мире гораздо больше... Даже в такой маленькой республике, как Дагестан, служившей на протяжении многих тысячелетий своеобразным коридором, проходящим через перешеек между Черным и Каспийским морями, отложилось ни много ни мало - свыше 60 языков, непохожих друг на друга.
Поэтому на земле насчитывается около 6 тысяч языков. Но среди великого множества можно выделить 13 "великих" языков. Владея этими языками, практически можно общаться со всеми людьми земного шара.
Язык состоит из слов, слова несут понятия. В сатирическом романе Ильфа и Петрова существует персонаж - людоедка Эллочка, которая объяснялась при помощи двух десятков слов, не больше. Высмеивая эту недалекую девицу, талантливые писатели почти лишили бедняжку языка, а вот Шекспир изъяснялся с читателями, используя 24 тысячи слов!
Современные математические исследования языка приводят нас к поразительным результатам, которых мы никогда в жизни не получили бы, если бы на помощь анализу не пришли машины. Они проанализировали различные языки - частоту употребления слов, характерное построение фразы. Именно машины дают нам сегодня возможность создать очень интересную статистику использования языка.
Американский ученый А.Уэст долго исследовал английский "словарь говорения". Вот его выводы: оказывается, для примитивного пересказа основной сюжетной линии анекдота нужно всего лишь 450 слов. Как видите, это все же значительно обгоняет возможности людоедки Эллочки! Для подробного пересказа любой сказки нужно не меньше 750 слов. Приключенческий роман требует не менее 1400 слов, а для пересказа любого произведения художественной литературы необходимо уже 3 тысячи слов.
Сколько же практически нужно слов для общения людей между собой? Я невольно вспоминаю увлекательный рассказ Акселя Ивановича Берга на тему словарного баланса.
"Я плавал в 1916-1917 годах на английской подводной лодке "Е-8" - одной из прорвавшихся сквозь немецкий заслон в Балтийское море, - рассказывает академик. - На каждую подлодку назначали для связи одного русского офицера, хорошо знавшего английский язык, - я и попал в число таковых. Неожиданно выяснилось, что на лодке английского языка не существовало - пять офицеров и 50 матросов, набранных из различных портов и провинций Англии, Шотландии и Ирландии, с трудом понимали друг друга, объясняясь на каком-то чудовищном жаргоне. Но, как ни странно, на сложнейшем подводном корабле все обходилось благополучно. А ведь мы пользовались словарным запасом в каких-то 200 слов. Из них несколько десятков были команды, а остальные морской жаргон - короче, довольно остроумные и научно обоснованные морские ругательства, принятые во всем подводном экипаже Британского королевского флота".
Конечно, рассказ этот анекдотичен. В обыденной жизни все обстоит сложнее. Вот данные психологов. Ребенок использует практически 3600 слов, подросток в 14 лет уже 9 тысяч слов. Что же касается взрослого человека, то он употребляет свыше 11 тысяч слов. А человек повышенного интеллекта имеет в своем запасе до 13500 слов. Это уже неплохо! Однако это еще очень далеко до полного использования словесного богатства, созданного человеческой культурой.
В языке есть слова, которые употребляются чаще и реже. С помощью кибернетических машин произвели и этот анализ. Через машину, как говорится, прогнали огромное количество разнообразных текстов. Машина автоматически подсчитала, какой объем занимают самые употребительные слова на различных языках. Выяснилось, что в английском языке 75 процентов текста занимают 736 самых употребительных слов. А что это значит? Вы изучили 736 слов, и, следовательно, три четверти текста вам уже будет понятно.
Увеличим запас слов до 1 тысячи. Что мы получим? 80,5 процентов английского, 83,5 процента французского и 81 процент испанского текста. То есть знание 1000 слов дает вам возможность полностью ориентироваться в чужом языке.
Увеличим еще наш словесный багаж - до 2 тысяч слов. Тогда они соответственно составят в английском языке 86 процентов, при 3 тысячах слов - 90 процентов, при 5 тысячах слов - 93,5 процента. А что это значит? Зная 5 тысяч слов, вы сможете свободно читать текст на английском языке, потому что лишь 19 слов из 300 будут вам незнакомы.
Но здесь обнаруживается поразительное явление. Вы изучили 10 тысяч слов, а процент знания текста возрастает только до 96,4 процентов. Сколько труда, сколько зубрежки, и только для того, чтобы выиграть каких-то 2,9 процента!
Это исследование очень интересно, особенно для тех, кто собирается изучать иностранные языки. Но в данном случае мы говорим о словарном составе обычного текста. Язык же писателя - это область, в которой он применяется в еще более разнообразных нюансах.
Вот почему первый, к кому мы обращаемся с математическим анализом языковых особенностей, - наш великий поэт Александр Сергеевич Пушкин. Машинами было подсчитано, что полное Собрание сочинений Пушкина составляет приблизительно 600 тысяч разных, неоднократно повторяющихся слов. Из этой массы 21200 слов совершенно различны. Каким огромным словарным резервом владеет поэт! Свыше 100 раз употребляется всего 720 слов, а один раз на все 600 тысяч слов встречается 6440 слов, 2 раза - 2830 слов, 3 раза - 1800 слов.
Разве этот анализ не является поразительным математическим доказательством бесценного богатства языка и умения пользоваться этим языком, чтобы передать читателю "поэтическую информацию".
Могут сказать: да, но ведь это Пушкин! А как обстоит дело у других писателей? В нашем распоряжении имеются некоторые данные. В "Божественной комедии" Данте 5860 слов, в произведениях древнего римского поэта Горация - 6084 слова, в стихах Гомера - около 9 тысяч слов. Мы уже упоминали, что у Шекспира, по разным источникам, количество употребляемых слов колеблется от 15 тысяч до 24 тысяч. Но приборы современных кибернетических машин проверяют особенности писателей и по другим направлениям.
Какова, например, емкость фразы писателя? Среднее число слов во фразах произведения Алексея Толстого "Сестры" равно 11,9, в "Поединке" Куприна - 9,5.
Машины помогают составлению так называемого частотного словаря. Это словари, которые представляют собою список, начинающийся с самых часто встречающихся слов до слов, которые встречаются исключительно редко. Английский частотный словарь включает в себя 30 тысяч слов. Он начинается со слов, которые встречались всего лишь 4 раза. Были составлены словари: испанский язык - 400 тысяч слов, чешский - 1,2 миллиона слов, польский - 7 миллионов слов, французский - 1,5 миллиона слов, немецкий - 11 миллионов слов.
Хочется еще сказать об анализе языка с точки зрения его заимствования у других народов. Машины подсчитали, что в албанском языке из 5140 слов только 430 являются собственными. В армянском языке из 1500 слов 1140 заимствованы из персидского, греческого, парфянского, сирийского, арабского и других восточных языков. Можно сказать, что этот язык вобрал в себя все особенности восточных языков.
Но ведь этот процесс касается и таких языков, как английский. В нем от 55 до 70 процентов всех слов заимствованы из французского языка, латыни и других романских языков.
Эти цифры мы привели не для того, чтобы обидеть людей, говорящих на своем родном языке, невольно обвинив их в заимствовании. Мы отлично понимаем, что каждый язык складывался в соответствии с историческими условиями. Однако вернемся к анализу языковых особенностей. Слова состоят из букв. Как же употребляются отдельные буквы в словах? На кибернетической машине провели анализ произведений целого ряда советских писателей, таких, как Гайдар, Паустовский, Горбатов, с общим количеством 88 тысяч звуков русской речи. Оказалось, что на каждые 100 букв текста приходится девять "О", шесть "А", столько же "И", пять "Н". Что же касается таких редких букв, как "Ю", - на каждые 100 букв она встречается 0,6 раза.
Анализ слогов показал, что в русском языке в слове в среднем 2,2 слога. Слова же, состоящие из 5 слогов, чрезвычайно редки - их всего 3,5 процента.
Читатель спросит: почему же, интересуясь кибернетикой и мозгом человека, мы так много места уделяем проблеме словообразования? А все дело заключается в том, что именно этот анализ и дает нам возможность вплотную подойти к пониманию того, что такое язык машин, как машина в состоянии переводить текст с одного языка на другой.
Когда-то, лет 100 назад, во всем мире выходило не более 1000 научных журналов, теперь их выходит свыше 100 тысяч. Если бы, например, химик 40 часов в неделю тратил на то, чтобы со скоростью четырех статей в час читать все, что публикуется в современной прессе, он за целый год не прочитал бы и десятой доли того, что ему следовало бы прочитать. Это приводит нас к прямой необходимости использования машин. Современная наука должна перерабатывать колоссальнейшее количество информации. Например, в Библиотеке имени Ленина сейчас хранится около 21 миллиона книг, к концу века их будет свыше 100 миллионов. В нашей стране 400 тысяч библиотек, в которых насчитывается полтора миллиарда книг.
За год Институт информации в Москве обрабатывает 11 тысяч иностранных изданий, 3 тысячи - советской периодики, 90 тысяч патентов, опубликованных на 65 языках. Для того чтобы обрабатывать всю эту гигантскую массу материалов, конечно, необходимо применение кибернетических машин.
Можно было бы до бесконечности продолжать эти важные расчеты, а сводятся они в основном к тому, чтобы призвать на помощь информационные машины.
Проблема перевода уже давно интересовала изобретателей и ученых. Первые машины перевода с одного языка на другой обрабатывали сугубо научный текст. Да оно и понятно - словарный запас в научных текстах сравнительно беднее, чем в художественных. Перевод с английского языка на французский и в обратном порядке проходил гладко, потому что строй языков был очень близок. Но когда столкнулись с переводами с немецкого языка на русский, перед учеными возникли необычайные трудности. Грамматика этих языков совершенно различна - в немецком глагол уходит в конец фразы. Машина мгновенно получила двойку по грамматике, а ученые растерялись.
Тогда начали создавать машину, которая заранее программировалась бы на эти правила. Языковеды начали давать свои советы - теперь разводили руками кибернетики. "Что же, вы хотите лишить машину универсальности? - говорили они. - Но это слишком дорого - создавать единичные машины. Кибернетическое устройство обязательно должно быть универсальным".
Однако для создания универсальной машины невероятно возрастало количество вариантов грамматических правил. Для 10 языков получалось 90 правил перевода. А как все это запрограммировать в машину?
Начав с некоторых успехов, кибернетики в конце концов зашли в тупик. И тогда возникла мысль создать язык-посредник. Машина будет переводить на этот язык, а уже потом с языка-посредника будут осуществляться переводы на все языки. Прежде всего это резко снизит количество промежуточных процессов: вместо 90 вариантов правил понадобится всего 20, из них 10 правил для перевода на язык-посредник и 10 - для перевода на другой язык.
Эта идея оказалась чрезвычайно плодотворной. Однако что же это за язык-посредник и каким он должен быть? Сначала взяли первый попавшийся язык - латынь. Латынь не подошла - она была лишена универсальности, необходимой для языка-посредника. Тогда лингвисты предложили использовать язык "эсперанто" и недавно созданный язык "интерлингва". В эсперанто грамматика состоит всего из 16 правил, к тому же не очень сложных.
Но дело опять не пошло на лад - язык эсперанто оказался слишком непохожим на живые языки. И наконец, после нескольких неудачных попыток языковеды пришли к необходимости создания для кибернетических машин своего собственного, специального языка. На этом языке никто никогда не будет говорить. Он будет скрыт от нас в недрах электронной переводческой машины. Сегодня над созданием такого языка работают ученые уже многих стран мира. В частности, в Ленинграде созданием такого языка занимается большая группа лингвистов. В основу своей работы они берут 26 западноевропейских и восточных языков, учитывают, какая часть населения земного шара пользуется тем или иным языком, и отбирают нечто среднеарифметическое из этих языков, с учетом их распространения.
Сегодня рано еще говорить о результатах в работе над созданием языка кибернетических машин, но все же некоторые правила могут представлять интерес. Например, в этом языке прилагательное обязательно должно стоять перед существительным, подлежащее располагается всегда раньше сказуемого, наречие должно стоять до глагола. Артикли, существующие в некоторых европейских языках, были признаны абсолютно ненужными. Но, возможно, и этот язык, который сейчас разрабатывается, окажется несовершенным и от него придется отказаться.
Язык машин - язык совершенно условный. Он будет представлять собой сетку соответствий между элементами языков, подвергающихся переводу. Московские ученые, во всяком случае, настаивают на создании именно такого языка.
Нужно сознаться, что сегодня вся работа по созданию машин-переводчиков ведется пока еще лишь в области технических текстов. Никто не ставит серьезно вопрос о переводе художественной литературы.
Работа лингвистов и кибернетиков в области переводов дает иногда поразительные результаты. В свое время вся мировая пресса писала о том, что ни одному ученому в мире до сих пор не удалось расшифровать древние рукописи племени майя, уничтоженного испанскими конквистадорами в Южной Америке свыше четырех веков назад. Такую же судьбу разделяют письмена ронго-ронго с острова Пасхи.
Иероглифы майя нанесены на кожу, на кору фикуса; а иероглифы ронго-ронго вырезаны на кусках дерева. Знание языков обоих этих народов давным-давно утеряно.
Советскому ученому Ю.Кнорозову удалось установить, что письменность майя - это иероглифы. И вот за расшифровку таинственных надписей взялись молодые ученые Сибирского отделения Академии наук. Перед ними стояла невероятная, почти неразрешимая задача - раскрыть тайну 400 иероглифов, более половины из которых были совершенно непонятны, а в отношении другой половины имелись лишь весьма смутные догадки.
Работу по переводу поручили машине. Была составлена специальная программа статистического исследования языка. В машину вводились данные поиска словаря, цифровые обозначения для всех иероглифов. Были введены все буквы латинского алфавита. Увлекательный, сложный процесс расшифровки мертвого языка длился два дня. За это время машина проделала свыше миллиарда операций. И какой успех! 40 процентов текста уже можно было прочитать. 130 лет трудились ученые над расшифровкой рукописей майя. И только сегодня с помощью машины удалось приоткрыть тайну древнего языка. Для расшифровки всего текста племени майя потребуется еще 200 часов работы, во время которых машина должна будет произвести 11 миллиардов операций.
Язык ронго-ронго также ждет своих исследователей. И, очевидно, мысли народа, когда-то населявшего остров Пасхи, станут известны человечеству с помощью машины, анализирующей самое прекрасное, самое удивительное, что создал человек, - язык.
Совершенно по-другому решается вопрос создания языка для машин-информаторов. Здесь не нужно никакого логического языка - нужны абстрактные знаки, условные символы. Примером таких абстрактных знаков может служить известная всем азбука Морзе, состоящая из точек и тире, впервые примененная при телеграфных передачах. Число знаков доведено до предела: их всего два.
Но может быть и другая "экономия". Вот запись на языке математики: а+в=в+а. А вот то же на обычном языке: "Сумма складываемых чисел, не зависит от последовательности их сложения". Как видите, количество знаков во втором случае почти в десять рас больше.
Примером символического языка может служить и язык химии. Серная кислота - H2SO4. Понятие одно и то же, однако в одном случае слова, в другом - символы.
Современные электронно-вычислительные машины не только должны собирать и распространять информацию, но они обязаны перерабатывать ее. Этим машинам нужен свой язык - новый код. Его разработкой заняты многие вычислительные центры.
Программисты Вычислительного центра Сибирского отделения Академии наук создают сейчас новый язык - посредник между человеком и машиной. Этот язык назван "альфа"-языком или "сибирским языком". Он является значительным вкладом во взаимопонимание между человеком и машиной. А взаимоотношения эти еще очень сложны. Ведь текст-задание программист должен с помощью специальных программ - трансляторов - преобразовать в язык, "понятный" машине. В этом случае программист превращается в своеобразного "жреца-посредника" между миром машин и человечеством. Таким образом, встает задача: сделать язык машины доступным не единицам, а широкому кругу людей.
В свое время молодой ученый - заведующий отделом программирования Вычислительного центра Сибирского отделения Академии наук Андрей Ершов представляет себе этот процесс как своеобразное обучение машины. Человек дает задание машине, она, если не понимает, задает вопрос. Новый ответ - и снова вопрос машины. И так до полного взаимного понимания.
- Во взаимоотношениях человека и машины, - говорит Ершов, - надо добиться, чтобы машина с каждым новым заданием становилась все "понятливей", чтобы, получая аналогичные задания, она не задавала одних и тех же вопросов. Иначе говоря, надо, чтобы машина сохраняла в своей электрической памяти "протоколы" своих бесед с человеком и свои новые знания употребляла в дальнейшей работе. Это не что иное, как обучение машины человеческому языку.
- Настанет ли такое время, когда машина будет понимать человека с полуслова?
- Да. Это время не за горами, - говорит молодой ученый. - Все дело в накоплении "словарных запасов" машиной. Сначала человек - учитель - приспосабливается к ограниченному языку ученика - машины. А когда тот его начинает понимать, расширяя баланс языка и знаний, подтягивает его до своего уровня.
Невольно я вспоминаю машину в японском павильоне Всемирной выставки, которая выполняет с голоса 40 команд на шести языках. Не первые ли это шаги?
Ведь практически возможно непрерывно расширять количество и характер той информации, которую с голоса может воспринять машина. Принцип освоен - все дело в объеме памяти машины и в умении ее распознавать получаемые сигналы. Придет время, и машины старших поколений будут поражать нас широтою своих возможностей.
Ну что ж, будем считать, что электронно-вычислительная машина уже села за школьную парту!
24 мая, воскресенье. Сегодня воскресенье. Но мы работаем. Торопимся... Во время перерыва возник ожесточенный спор об искусстве. Спорили и фантазировали все: Николай, Нина, Николай Иванович, и, конечно, больше всех горячился Петя Кузовкин. Пожалуй, весь спор можно было свести к одному основному вопросу: меняются или не меняются представления об искусстве в связи с требованием века, влиянием космонавтики и автоматики?
- А может быть, эти представления остаются постоянными? - говорил Николай.
- Конечно, меняются! - уверенно заявлял Коля Трошин. - Что такое кинематограф, как не новое искусство? Когда-то кинофильм был аттракционом на ярмарках. А потом на экран пришел звук. За ним появился цвет. Экран стал широким, наконец, объемным. Потом он полностью замкнулся вокруг зрителя. Кстати, вы смотрели циркораму на Выставке достижений народного хозяйства в Москве? А недавно я читал в журнале "Техника - молодежи", что специалисты предполагают строить шарораму. Зритель будет находиться в центре помещения под круглым куполом. Экран, состоящий из правильных сот - восьмиугольников, будет расположен внутри всей сферы. По-моему, сегодня никто не будет отрицать, что кино стало новым искусством, - горячился Трошин.
- А театр? - вмешалась в разговор Нина. - Здесь тоже произошла полная революция. У нас в студии мы изучали искусство Древней Греции. Актер выходил на сцену на котурнах, чтобы увеличить свой рост. Декламировал он во всю силу легких, иначе его просто никто не услышал бы в задних рядах.
А сейчас? Радио может придать любую силу голосу. Даже мода пошла на лирических певцов из слабоголосых!
А телевидение?
Миллионам людей оно дало возможность видеть все тончайшие нюансы человеческой мимики.
Опять новая ступень в развитии искусства, не так ли?
Высказал свое мнение и Николай Иванович. Он говорил о цветомузыке, об удивительной гармонии сочетания зрительных и слуховых впечатлений. И говорил он об этом не как любитель, а как специалист-кибернетик.
- Существует определенный диапазон звуков, которые слышит человек, - объяснял Авдюшин. - Это колебания. Цвет - тоже колебания разной частоты. Я уверен, что существует внутренняя, если так можно выразиться, физиологическая или психологическая, что ли, связь между этими колебаниями, - продолжал Николай Иванович. - Найти их совместное воздействие на психику, на чувства - и вот вам совершенно новый вид искусства, яркого, впечатляющего, действенного.
- А я убежден, - тоном, не допускающим возражений, сказал Петя Кузовкин, - нам вообще пора пересмотреть эстетические требования, предъявляемые к искусству. Надо говорить о новом искусстве. Вспомните, как рассказывает Гагарин о своих впечатлениях перед отправлением в космос. Он ехал по степи, а на горизонте возвышалось серебряное тело ракеты, нацеленной в небо. С каждым километром ракета приближалась.
"Она была красивее зданий и мостов, кораблей и городов, красивее всего, что создала человеческая фантазия", - вспоминал Гагарин. Потрясенный, смотрел Гагарин на серебряное чудо, которое должно было унести его в космос. Нет, наши художники и скульпторы еще не оценили по достоинству то новое, что внесло наше время в искусство! А как описывает Гагарин музыку реактивных двигателей? - взволнованно продолжал Петя.
"Это была поразительная, ни с чем не сравнимая музыка, которую, вероятно, не слышал ни один композитор и еще не переложил ее на звучание оркестров. Но придет время, и такую музыку обязательно напишут!"
Я слушал этот увлекательный спор и думал о Кибере. Хитрый Кибер молчал, хотя, конечно, все слышал. Все же вечером он изрек свое мнение.
Кибер: Люди еще не выработали точной основы оценки произведения искусства.
Автор: А разве такие оценки существуют?
Кибер: А чем, по-вашему, занимается семиотика? Ведь эта новая наука пытается расшифровать код современного искусства?
Автор: Ты что же, считаешь, что пришло время "алгеброй гармонию поверить"?
Кибер: Конечно. А потом, не забывайте, мы, машины, тоже включились в создание произведений искусства.
Автор: Но это уж слишком. Искусство - это область человеческой деятельности, творчества.
Кибер: Посмотрим...
Василий Дмитриевич Захарченко, 1975 год