ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ

Государственное образовательное учреждение высшего профессионального образования

         РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ ГУМАНИТАРНЫЙ УНИВЕРСИТЕТ

                      УПРАВЛЕНИЕ АСПИРАНТУРОЙ И ДОКТОРАНТУРОЙ

 

                                                  Кафедра общей информатики

 

                                         Чесебиев Игорь Аскерович

 

ИСТОРИЯ РАЗВИТИЯ МЕТОДОВ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ С ТОЧКИ

ЗРЕНИЯ ЗАДАЧ МАШИННОГО ПЕРЕВОДА И АВТОМАТИЗИРОВАННОГО ПОНИМАНИЯ ТЕКСТОВ.

 

                                              Реферат по общенаучной дисциплине

                                      «История и философия науки» («История науки»)

 

                                                        История информатики

 

 

Научный руководитель

ученая степень, ученое звание

инициалы, фамилия

                                                                                           _______________________

                                                                                                   (Личная подпись научного

                                                                                                               руководителя)

 

Рецензент

ученая степень, ученое звание

инициалы, фамилия

                                                                                           _______________________

                                                                                                   (Оценка: «зачтено-незачтено»)

                                                                                           _______________________

                                                                                                    (Личная подпись рецензента)

 

 

 

 

 

 

 

                                                             Москва 2009

 

 

 

 

 

 

 

 

 

 

                          ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ

Государственное образовательное учреждение высшего профессионального

                                                            образования

РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ ГУМАНИТАРНЫЙ УНИВЕРСИТЕТ

                     УПРАВЛЕНИЕ АСПИРАНТУРОЙ И ДОКТОРАНТУРОЙ

 

                                                   РЕЦЕНЗИЯ

на реферат по общенаучной дисциплине «История и философия науки» (История науки)                     соискателя

 

                          ______________________________________________________

                                 (ф.и.о.)

_____________________________________________________________________________________________________

_____________________________________________________________________________________________________

_____________________________________________________________________________________________________

(тема реферата)

Отрасль науки ________________________________________

Специальность____________________________________________________________________________

                                                                                            (шифр, название)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Оценка ___________________________                                    “ ______ “  ________________ 2009 г.

                      (зачтено/ не зачтено)

Рецензент _________________________________________________________________________

                                подпись                   (ф.и.о., должность, уч. степень, звание)

 

 

 

 

 

 

Содержание.

 

1. Предыстория.

2. История компьютерной лингвистики на Западе.

    2.1. АОТ с 40-х годов XX века по 1965 г.

    2.2. АОТ с 1966 по 1980 годы.

    2.3. АОТ в 80-е и 90-е годы.

    2.4. Современные результаты компьютерной лингвистики.

3. История компьютерной лингвистики в СССР и России.

    3.1. До теории «Смысл↔Текст».

    3.2. Теория «Смысл↔Текст».

    3.3. 70-80-е годы.

    3.4. Современное коммерческие системы.

4. Послесловие.

5. Использованная литература и другие источники.

 

 

1. Предыстория.

 

Для античности был характерен синкретизм мышления. Человек понимался как часть природы и общества. Человек отождествлялся мышлению, а мышление миру. Мир можно познавать через слова, поэтому речь также отождествлялась с мышлением. Мышление понималось только в словесно-логической форме. Языковое и мыслительное содержание не различались. Центральным понятием античного учения о языке был Логос – то, при помощи чего боги вступают в разговор с людьми. Логос – это и слово, правильно выражающее мысль, и мысль, правильно выраженная в слове. В этом периоде поднимается вопрос о том, что первично для языка – человеческое сознание или внешняя объективная данность. Аристотелем впервые вводится логика для исследования речи и языка, а позднее Квинтилиан вводит разделение искусств на грамматику, логику и риторику.

 

 В более позднее время влияние римской империи привело к тому, что в Европе больше чем на тысячу появился общий язык – латынь, а центральной проблемой в учении о языке стал спор реалистов и номиналистов. Реалисты утверждали, что универсальные понятия (человек, лошадь и т.д.) существуют в действительности, независимо и первично по отношению к физической реальности. Номиналисты заявляли, что различные объекты имеют независимое существование. Посредством универсальных понятий в языке помечаются понятия, существующие лишь в сознании, абстрактные понятия.

 

 В 1453 году пал Константинополь. Латинская лингвистика ограничилась рамками Италии. Но возродился интерес к работам греческих и римских классиков. Европа была политически разделена. Чтобы иметь возможность управлять, правительства отдельных государств использовали местные языки в качестве общенациональных. Потребность в латыни снизилась.

 

Средневековье вводит понятие грамматики (грамматика Порт-Ройаль), которая подразделяется на морфологию, синтаксис и прагматику. Локк вводит разделение понятий

Концепт (понятие как таковое) и его Выражение. Кондиак выделяет минимальные смысловые единицы речи. Язык описывается как единство структуры и смысла. Для целей книгопечатания вводятся стандарты языка, разработанные Кэкстоном. Изобретение книгопечатания Гуттенбергом решающим образом повлияло на характер изучения языка.

  

 Центральной проблемой учения о языке Нового времени стал поиск Истинного Языка. Европейские ученые обратили свое внимание на санскрит, древний язык с сильно развитым словоизменением и более сложный, чем греческий. Гумбольдт выдвигает гипотезу о существовании в древности протоиндоевропейского языка. Дарвинизм дал толчок изучению языков первобытных племен и представлениям о эволюции языка.

    

Основоположником современной лингвистики принято считать Соссюра.Согласно Фердинанду де Соссюру, идеи подобны Вселенной, из которой ничто не может быть выделено в независимое состояние. Ничто не может быть идентифицировано (однозначно определено) до возникновения языка. Знаки ( в частности звуки и слова), приписываемые человеком вещам и явлениям изначально произвольны. Для Соссюра то, что может быть извлечено путей изучения прошлого языка, имеет мало практического значения. Более важным для его учения является прояснение структуры языка. Соссюр доказывает, что вопросы, касающиеся отношений языка и мира не являются основой учения о языке.

Языком (la langue) он называл общий для всех говорящих набор средств, используемых при построении фраз; речью (la parole) – конкретные высказывания индивидуальных носителей языка. Лингвистика по Соссюру изучает структуру языка (la langue).

Большинство современных разработок в области АОТ являются продолжением теории Соссюра и основываются на изучении языка, добавляя к нему исследование речи.

 

До Соссюра язык рассматривался как именование природных объектов (Теория Имен). Соссюр предположил, что природа в хаотическом состоянии может быть разделена только когда язык вводит ссылки на ее объекты, так чтобы каждый объект мог быть распознан. Это был поворот на 180 градусов по отношению к общепринятому воззрению. Другими словами, предполагалась автономия языка. Изучение языка превращалось в науку о предмете, независимом от мира природы.

 

 Тезис об автономности языка Соссюр развил в понятиях «означающего» и «означаемого». Языковой знак состоит из акустического образа («означающего») и понятия («означаемого») и имеет два основных свойства. Во-первых, между означаемым и означающим нет внутренней, естественной связи – связь произвольна. Во-вторых, означающее обладает протяженностью только в одном измерении (во времени). Означаемое и означающее не устанавливаются извне – они внутренне присущи языку.  

     

    В то время как Соссюр предлагал противопоставление означаемого и означающего вкупе с произвольностью природы языка, Чарльз Сандерс Пирс изучал человеческие познавательные процессы. 

Пирс вводит понятие «интерпретации», чтобы иметь возможность обращаться с языком в конкретном контексте. Были предложены три структуры (абстракция возрастает слева направо):

 

икона

индекс

символ

абдукция

индукция

дедукция

термин

предположение

аргументация

Соссюр исключил понятия этой колонки из своего учения ради идеи независимости языка

«означающее» у Соссюра

«означаемое» у Соссюра

 

    Дедукция (лат. deductio — выведение) — метод мышления, при котором новое положение выводится чисто логическим путем из предшествующих, вывод осуществляется по правилам логики, подразумевает цепь умозаключений (рассуждение), звенья которой (высказывания) связаны отношением логического следования. Началом (посылками) дедукции являются аксиомы, постулаты или просто гипотезы, имеющие характер общих утверждений («общее»), а концом — следствия из посылок, теоремы («частное»). Если посылки дедукции истинны, то истинны и ее следствия. Дедукция — основное средство доказательства. Противоположно индукции.

    

    Индукция (лат. inductio — наведение) — процесс логического вывода на основе перехода от частного положения к общему. Индуктивное умозаключение связывает частные предпосылки с заключением не столько через законы логики, а скорее через некоторые фактические, психологические или математические представления.

    

    Абдукция - рассуждение, имеющее дело с  гипотезами. Гипотезы, относящиеся к реальному миру, получаются согласованием правил и достигнутых результатов. Абдукция в логике — силлогизм (рассуждение, состоящее из трёх простых атрибутивных высказываний: двух посылок и одного заключения), вид редуктивного вывода, с той особенностью, что из посылки, которая является условным высказыванием, и заключения вытекает вторая посылка. Пример: Первая посылка - Все люди смертны. Заключение - Сократ - смертен. Мы можем предположить, с помощью абдукции, что вторая посылка - Сократ - человек.

     Язык рассматривается и как способ умозаключения, и как некто, основанное на определенных аксиомах, и как зеркало реального мира.

 

 

 

 

2. История компьютерной лингвистики на Западе. 

 

      Автоматической обработке текстов на естественном языке (АОТ) достаточно много лет. Использование компьютера для расчетов артиллерийских таблиц и расшифровки шифров уже не казались чем-то очень уж важным через несколько лет после окончания второй мировой войны. Мирное время дало исследователям возможность пофантазировать и на другие темы. Впрочем, до 1960-го года в области АОТ было сделано достаточно небольшое количество работ, так что вполне нетрудно было бы написать их исчерпывающий обзор. Настоящая революция произошла в 60-е годы.

 

2.1. АОТ с 40-х годов XX века по 1965 г.

 

       Образцы механических переводчиков языков существовали еще до изобретения компьютера. Первой работой, которую можно было бы отнести к нашей области, была система поиска по словарю, разработанная в колледже Беркбек в Лондоне в 1948 году.

Первые интерес в США к этой теме обычно датируют выходом в 1949 году меморандума Уоррена Уивера. Во время второй мировой войны Уивер был вовлечен в работы по расшифровке шифров. Его идея была проста: все люди одинаковы (несмотря на то, что говорят на разных языках), поэтому текст любого языка можно рассматривать как некую  шифровку или код. Если этот код разгадан, становится возможным вывести любой документ на другом языке. С его точки зрения немецкий язык – это зашифрованный английский.

      

     Исследователи быстро ухватили эту идею. Ее пытались  развить в исследовательских группах США, Великобритании, Франции и Советского Союза. Ранние американские системы концентрировали свое внимание на переводе с немецкого на английский, так как после войны осталось много потенциально полезной немецкой технической документации. Со временем интерес переместился на перевод с русского на французский и английский и с французского и английского на русский. Таким образом Холодная война оказала влияние и на машинный перевод.

  

    Ранние системы машинного перевода были явно неудачными. Хуже того, они в конечном итоге привели к враждебности  власть имущих и тех, от кого зависело финансирование исследований, к разработчикам этих систем. Меморандум Уоррена Уивера 1949 года вдохновил разработчиков многих проектов, многим из которых пришлось теперь спуститься с небес на землю: в АОТ не было получено никакой теоретической базы и никаких знаний о методиках, которые можно было бы в дальнейшем применять и развивать. Первые исследователи были зачастую математиками, а их усилия во многом сводились к борьбе с примитивностью современных им ЭВМ. Немногие разработчики были двуязычными. В основном это были немцы, иммигрировавшие в США. Ожидалось, что их знания по крайней мере помогут получать удовлетворительный перевод технических текстов. Однако скоро стало очевидным, что задачу они поставили перед собой чрезвычайно трудную. Язык оказался гораздо более сложным явлением, чем они себе представляли.

Кроме того знания двух языков было недостаточно: нужно было умение кодировать свои знания в виде компьютерной программы.

      

    Вопрос, который стоял перед компьютерной лингвистикой накануне когнитивной революции, был: может ли наука о языке быть основана на дедуктивной системе, подобной физике. Индуктивный анализ обеспечивается только посредством данных. Возможности компьютеров на тот момент были очень ограниченными. Кроме того возможности развития индуктивного подхода были ограничены недостатком алгоритмических моделей.

      

     Как разработать систему для обработки естественного языка, которая пройдет тест Тьюринга? Представим большую таблицу, содержащую соответствия между предложениями и их смыслом или предложениями на одном языке и предложениями на другом языке. Это похоже на обман и не передает сути процесса понимания или перевода с одного языка на другой. Таблица должна быть бесконечно большой, так как количество возможных сочетаний слов неограниченно. Значит, такой подход не решает проблему и нужно достигать цели за счет алгоритмических решений.

 

      Типичными крайностями были развитие теорий, в которых не уделялось должного внимания данным (подход «сверху-вниз»), и запоминание данных без включения логического подхода (подход «снизу-вверх»). История исследований машинного перевода  в дальнейшем – это, во многом, борьба между этими двумя подходами.

 

       Сначала очевидным казалось обратиться за помощью к лингвистике. Литература 50-х годов свидетельствует о растущей осведомленности лингвистов в проблематике машинного перевода. Для молодых исследователей в области языкознания тема машинного перевода становится достаточно популярной. Хотя можно было бы поприветствовать стремление смежных дисциплин внести вклад в решение проблемы, но до некоторых пор оставалось непонятным в чем этот вклад состоит, так как подходящей для цели машинного перевода теории в языкознании не существовало.

       

 Используемый в это время вариант подхода «снизу-вверх» был частью общенаучного течения, называемого структурализмом. Структурализм в случае АОТ – это попытка преобразования спекулятивной лингвистики в науку о языке.  Невозможно покрыть все аспекты живой речи. Но лингвисты восприняли эту невозможную задачу как вызов для себя.

 

   Они фокусируются на специфических феноменах и производят выводы, основанные на любых языковых феноменах, о которых они когда-либо слышали. Создаются массивные базы данных образцов предложений, которые лингвисты хранят и организовывают для своих нужд.

 

   Неудачи подводят исследователей этого периода к  выводу: субъективные спекуляции полученные из наблюдений над данными не могут прояснить природу языка.

 

   Ситуация изменилась в 1957 году с публикации работы молодого американского лингвиста Ноама Хомского «Синтаксические структуры». Положения, развитые в этой статье до сих пор являются в АОТ доминирующими. Хомский сделал революции в лингвистике и, вероятно, сделал это без посторонней помощи. Он представил идею порождающих (генеративных) грамматик. основанные на правилах описания синтаксических структур. Хотя многие не приняли идею Хомского о продуцировании альтернативных лингвистических формализмов и его метода извлечения лингвистических данных, почти все работы в области АОТ с 1957 года были отмечены его влиянием.

 

Хомский считал способность к языковому общению заложенной в человека генетически, врожденной, поэтому поддержал идею возможного открытия природы языка через исследование способности человека к языковому общению. Очевидно, область исследований ограничивается бессознательным представлениями о грамматике(синтаксисе), а семантика исключалась из рассмотрения.

 

   Работы Хомского послужили началом рационалистического направления в компьютерной лингвистике. Исходная точка рационализма - компьютерные модели, независимые от языка. Модели лучше всего принимаются, когда они настолько просты, насколько это возможно. Здесь можно провести параллель с идеей Соссюра отделить язык от реального мира.

 

      С самого начала этот подход не дал хороших результатов, но поскольку работы в этом направлении упорно продолжались, результаты стали несколько лучше, чем у систем, исповедовавших подход «снизу-вверх». Теория универсальной грамматики Хомского давало схему, независимую от индивидуальных особенностей конкретного языка. Синтаксис лучше всего соответствовал моделям независимых языков, в которых только языки принимались в расчет.

 

     Ранние исследователи машинного перевода поняли, что машина не может перевести введенный текст без дополнительной помощи. Учитывая нехватку лингвистических теорий, особенно до 1957 года, кое-кто предлагал предварительно редактировать тексты таким образом, чтобы отмечать в них трудности, например, чтобы разрешить омонимию. А поскольку системы машинного перевода не могли производить правильный результат, текст на целевом языке должен был быть отредактирован, чтобы стать понятным.

 

     Идея предварительного и последующего редактирования текста породила идею, что компьютер может быть использован для оказания помощи человеку в областях, с которыми компьютер не в состоянии пока справляться своими силами. В области машинного перевода компьютер может действовать как память-хранилище, освобождая человека от необходимости знать огромное количество слов. Бар-Гиллель рассмотрел область исследований и пришел к выводу, что Полностью Автоматический Высококачественный Перевод (FAHQTFull-Automatic High-Quality Translation) не возможен без знаний. Он также пришел к выводу, что многочисленные проекты, в которых перевод сводился главным образом к попарной замене слов одного языка на слова другого, были изначально обречены на провал даже с учетом многочисленных заплаток и расширений. Причина проста: переводчик-человек добавляет свое понимание документа, который нужно перевести, к своим знаниям о структурах языка, с которым он работает. Там остаются некоторые конструкции, которые требуют понимания документа  или пути, по которому представления о мире и предметной области могут быть представлены. Во многих языках трудно понять, что имеет в виду говорящий предложение типа:

 

«Она надела красные туфли и чулки».

 

      Были ли чулки тоже красными? Во многих случаях это не имеет значения, но если система, например, анализирует свидетельские показания, значение таких деталей может существенно возрастать.

     

Комментарии Бар-Гиллеля оказали долговременное влияние на восприятие практичности АОТ и машинного перевода, в частности. Другим обличающим фактором были размеры продаж систем. Исследовательские проекты должны были иметь постоянное и долгосрочное финансирование, чтобы удерживать членов групп разработчиков вместе. В ситуации, когда есть много групп, работающих в одной и той же базовой области, крайне важно уметь показывать, что был достигнут значительный прогресс. Спонсоры хотели видеть четкую практическую демонстрацию результатов от их финансирования. Продажи систем машинного перевода были убыточными до середины 1960-х годов. Этому не способствовало даже наивное стремление некоторых представителей прессы подать с блеском некоторые разработки. Одним из примеров этого была организация презентации Джорджтаунской системы 7 января 1955 года. Сейчас, спустя полвека после этого, система представляется невероятно сырой, для которой  не было никакой надежды когда-либо воплотиться в какое-то проявление практического машинного перевода.

   

В США финансирование машинного перевода в середине 1960-х годов достигало 20 миллионов долларов. Консультативный Комитет по автоматической обработке языка (ALPACAutomatic Language Processing Advisory Commitee) выпустил отчет о результатах финансирования в котором сделал вывод, что «машинный перевод общенаучного текста не получен и нет перспектив его получения в близком будущем».

Финансирование машинного перевода в США было остановлено, что в конечном итоге привело и к остановке разработок в АОТ, не связанных с машинным переводом. Это также послужило толчком к остановке финансирования разработок в других странах и развитие АОТ вступило в неактивную фазу.

 

 

 

 

 

2.2. АОТ с 1966 по 1980 год

 

Некоторые историки свидетельствуют о том, что АОТ практически исчезла со сцены после доклада ALPAC. Это не в полной мере соответствует действительности. Безусловно верно и то, что разработок стало значительно меньше, а работы по машинному переводу были практически свернуты больше чем на 10 лет. Тем не менее, в течении 15 лет после доклада ALPAC произошел ряд значительных событий, некоторые из которых повлияли и на сегодняшнее положение дел в этой области науки.

 

Ключевыми идеями, появившимися в этот период, были Расширенная Сеть Переходов, Грамматика Падежей и процедурная семантика.

 

Расширенная Сеть Переходов (ATN – Augmented Transition Network).

 

    Расширенная Сеть Переходов представляет собой образец программного обеспечения, продемонстрировавшего возможность использования достаточно мощных грамматических средств для обработки синтаксиса. Неправильно думать о ней только как о средстве обработки синтаксиса, потому что это нечто большее, чем просто реализация поискового алгоритма. Она представила формализм для выражения знаний о предметной области (знания записывались в виде расширенной сети переходов). Был также представлен способ использования этих сетей для поиска путей решения проблем. Применительно к АОТ речь шла о знаниях синтаксиса английских предложений, а проблемой, которую система должна была решать, был синтаксический разбор этих предложений.

 

Грамматика Падежей (Case Grammar).

 

   Грамматика падежей привлекательна с точки зрения семантики. Многие языки, например английский (русский в меньшей степени), выражают отношения между глаголами и существительными главным образом посредством связующих предлогов. Рассмотрим следующее предложение:

 

   John bought a ticket for Mary in the Symphony Hall Booking Office.

   (Джон купил билет для Марии в кассе заказов симфонического зала)

 

Мы знаем из позиции слов John и ticket, что Джон является агентом, производящим действие, а  билет является объектом (или пациентом) этого действия. Мы знаем также, что Мэри является бенефициаром (тем, кто извлекает пользу) действия, так как перед ее именем употреблен предлог for. Местом действия является касса заказов симфонического зала, на что указывает предлог in.

 

Чарльз Филмор (Fillmore) заметил, что некоторые языки не имеют предлогов, но и в них существительные отвечают тем же ролевым классам. В разных языках используются различные способы выражения той же самой информации. Например, это может быть достигнуто посредством использования окончаний или жесткого порядка слов в предложении. ( В русском языке для выражения семантической роли в разной степени служат и предлоги и окончания и положение слова в предложении). Филмор предположил, что существует очень небольшое число глубинных падежей (deep cases), которые выражают возможные отношения между глаголом и существительным в предложении. Разные языки выражают эти глубинные роли разными способами, такими как порядок слов, местоимения, словоизменение (например, изменение окончаний слов).

  

Значение этого предположения для АОТ в том, что оно позволяло достаточно легко создать теорию о том, как собирать семантическую информацию. Разработка грамматики падежей также привело к развитию одной из сложных проблем машинного перевода: перевода предлогов.

 

Концептуальная зависимость и процедурная семантика.

 

В этот период было несколько значительных разработок в обработке семантики. Шэнк (Shank) и его коллеги предложили понятие Концептуальной Зависимости и связанный с ним метод выражения языка посредством семантических примитивов (процедурная семантика). Система была создана так, что в ней в принципе отсутствовала синтаксическая обработка. Килиан (Quillian) разрабатывал идею семантической сети, которая была в различных формах  использована в дальнейшем во многих системах. Уильям Вудс (Woods) использовал идею процедурной семантики для описания промежуточного представления, используемого во взаимодействии системы обработки текста с базой данных.

 

Ключевыми разработками в этом периоде были SHRDLU, LUNAR и LIFER/LADDER.

 

SHRDLU.

 

Система SHRDLU Терри Винограда (Terry Winograd) имитировала поведение робота, манипулировавшего блоками на поверхности стола. Она могла управляться инструкциями, такими как “Pick up the red pyramid”(«Возьми красную пирамиду»)и отвечать на вопросы типа “What does the blue box contain?”(«Что содержит голубой блок?»). Появление SHRDLU имело большое значение, так как оно показало, что синтаксис, семантика и порождение выводов о мире могут быть скомбинированы так, чтобы создать систему, которая понимает естественный язык. Это была очень ограниченная система: она могла управляться только очень небольшим числом предложений. Более того, она могла понимать язык, касающийся только настоящего момента и очень небольшой части реального мира: мира блоков. Эффект, который она производила, мог быть достигнут только в весьма ограниченной области и попытка расширить систему неизбежно привела бы к снижению эффективности.

 

LUNAR.

 

LUNAR был естественно-языковым интерфейсом к базе данных, использовавшим и Расширенную Сеть Переходов и процедурную семантику Вудса. Система унаследовало свое имя от базы данных, содержавшей информацию об образцах лунных скальных пород. Система была продемонстрирована на Научной Конференции по Луне в 1971 году. Ее эффективность казалась весьма впечатляющей: она сумела справиться с 78% запросов без ошибок, причем эта цифра возросла до 90% после исправления ошибок. Впрочем цифры эти не должны были вводить в заблуждение, ведь не случайно система не стала предметом интенсивной эксплуатации: ученый, попытавшийся бы использовать систему для своих повседневных рабочих нужд, быстро обнаружил бы, что ему нужны запросы, выходящие за пределы возможности системы.

LIFER/LADDER.

 

LIFER/LADDER была одной из наиболее впечатляющих систем АОТ. Она была сконструирована как естественно-языковой интерфейс к базе данных кораблей ВМС США. Она использовала семантическую грамматику, в которой использовались метки типа «КОРАБЛЬ» или «ХАРАКТЕРИСТИКА» вместо синтаксических меток типа «существительное» или «глагол». Это означало, что система, как и SHRDLU, была тесно привязана  к области для которой была сконструирована. Тем не менее, использование разработчиками семантической грамматики дало ряд преимуществ в разработке дружественного к пользователю интерфейса по сравнению с SHRDLU. Например, в систему была включена возможность определения новых словарей, определения парафразов (например, чтобы сделать возможным быстрый доступ), возможность обработки незаконченного или неполного ввода. Эти свойства сами по себе были очень впечатляющими, но исследовательская группа приступила к программе строгой оценки и опубликовала доклад, ставший настоящим сокровищем для тех, кто стремился глубоко изучать АОТ. Одним из выводов доклада было то, что люди быстро подстраивались под машину и пытались использовать очень неполные предложения, заменяя нормальный естественный язык подобием неформального языка запросов.

 

Было рассмотрено небольшое количество систем. Тем не менее они отражают все основные достижения этого периода. Если можно сделать какой-то вывод из этого этапа развития АОТ, то он в следующем: необходимо вовлекать в работу систем семантические знания в таком большом количестве, чтобы сделать разработки практически полезными. Несмотря на это ряд разработок и с 1980 года может являлся попыткам обойтись небольшим количеством семантической информации.

 

 

 

 

2.3. АОТ в 80-е и 90-е годы.

 

    Узкоспециализированные системы 1970-х годов, такие как SHRDLU и LIFER/LADDER не могли быть в действительности расширены до практически полезных приложений. Реакцией на этот факт в сообществе АОТ стала попытка взглянуть на разработку посредством формализмов дающих более точные и полные описания, эффективно реализуемые на компьютере.

   

 

Грамматические формализмы.

 

Семантические системы 1970-х совершенно сознательно избегали использования синтаксической обработки, некоторые пытались вообще очистить от синтаксической информации свои системы. Синтаксис всегда рассматривался большинством лингвистов-теоретиков как основополагающая часть человеческого языка. Инженеры же увидели в синтаксисе полезный способ разрешения омонимии с относительно небольшим объемом необходимых знаний (по крайней мере, по сравнению с объемом знаний, требуемым для этой цели семантической обработкой). Теоретические лингвисты также выступали критически против всеобщего признания Трансформационной/Порождающей грамматики Хомского.

  

Результатом стали грамматики, оперирующие более детализированными синтаксическими характеристиками объектов информации ( например, часть речи -существительное, лицо - третье, время - прошедшее, число - множественное и т.д.), а не одноатомные категории (глагол, существительное, прилагательное и т.д.). Эти грамматики могли дать гораздо более точный анализ предложения, но за это нужно было заплатить определенную цену. Для детализированных характеристик необходимы гораздо более сложные методы сопоставления в поисковых алгоритмах, отсюда такие грамматики получили название унификационных, так как сопоставление характеристик могло быть достигнуто посредством метода унификации.

  

 Есть несколько грамматик, которые используют унификацию как главную операцию для комбинирования информации. Из них Грамматика Обобщенной Фразовой Структуры (GPSGGeneralisez Phrase Structure Grammar) , была одно время очень популярной, но, видимо, самым широко используемым формализмом  стала Грамматика Лексических Функционалов (LFGLexical Functional Grammar).

 

Расширенные лексиконы.

 

Лексикон (или словарь) использовался до сих пор для хранения очень простой информации. Использование унификационных грамматик с их детализированными характеристиками привело к значительному усложению лексиконов. Сейчас он является первичным источником информации о свойствах слов и эта информация используется во время разбора(использующего унификацию) для создания конечного дерева разбора, представляющего структуру анализируемого предложения.

 

Логика для семантики.

 

Раз синтаксическая информация должна широко использоваться, значит нужен способ передачи этой информации в семантическую обработку на более поздней стадии, чтобы максимально разрешить омонимию. Подходом, который позволил достичь прогресса, стало использование использование логики предикатов для представления семантической информации. Семантическая информация может комбинироваться посредством унификации почти так же, как синтакическая. Методы исчисления логики могут быть использованы для вывода и получения более подробной информации из входных предложений. Такая логика не должна быть классической ( то есть не сводиться к вычислению истинности или ложности высказываний), в ней должна быть возможность обработки альтернативных суждений, возможность выражать пространственные и временные отношения.

 

Порождение текста.

 

Приложение, которое должно выводить некий результат, можно попробовать заставить делать это на естественном языке, тем самым делая его более удобным для пользователя. Одно из направлений разработки состояло в создании систем автоматического реферирования.

 

Многоязычные приложения.

 

Рост многоязычных сообществ означает спрос на переводы, особенно деловых и технических текстов, переводить которые профессиональным переводчикам скучно или невыгодно. Поскольку полный высококачественный машинный перевод в этом периоде больше не рассматривался как краткосрочная или даже среднесрочная цель, это пространство было предназначено для ограниченных систем машинного перевода (например, канадские метеосистемы, автоматически преобразующие сводки о погоде с английского на французский) и средств, используемых переводчиками-людьми. Другим направлением была разработка генерации текста на нескольких языках.

 

Мобильность.

 

Одним из недостатков таких впечатляющих систем, как LIFER/LADDER была трудность переноса системы из одной проблемной области в другую (например из области описания кораблей ВМС США в область кадрового учета). В этот период совершаются попытки создания систем, применимых к разным проблемным областям. Развитие унификационных грамматик и логики для семантики усилили тенденцию обобщения  разных систем, что привело к прогрессу в решении проблемы мобильности систем.

 

 

80-е годы. Формирование фундамента современного машинного перевода.

 

    В 80-е годы в большой мере формируется фундамент современного подхода к структуре машинного перевода.

    Переход от языка А к языку Б можно представить в виде следующей схемы. Предполагается, что на каждом уровне соответствия может быть создан список преобразований структуры языка А в структуру языка Б даже если этот список окажется очень длинным.

 

 

 

     По мере продвижения по схеме снизу вверх, размеры структур увеличиваются.

Описанная выше схема опирается на положении формальной семантики, что смысл целого определяется комбинацией смыслов составляющих. Но пары слов в языках А и Б могут иметь больше одного значения (омонимия), некоторые грамматические характеристики и функции слов могут существовать только в одном из этих языков. Несмотря на все это, детальный список преобразований может быть полезным для обработки ситуации.

 

      Самым серьезным итогом работ, связанных с таким подходом в эти годы, было введение понятия контекстной зависимости смысла. Чтобы преобразовать существительное из языка А, где они не имеют единственного и множественного числа, в язык Б, в котором они присутствуют, необходимо понимание контекста. Однако, вариаций контекстов может быть неограниченно много. По умолчанию все существительные обрабатываются как относящиеся к единственному числу и преобразовываются в форму множественного при наличии указывающего на него контекста.

 

    Значение (смысл) слова выражается посредством сегментированных значений терминов:

 

     Убить=Быть_причиной(Некто(Живой->Мертвый))

 

Одним из главных направлений дальнейшего поиска станет как раз ответ на вопрос: какие базовые элементы необходимы для адекватного выражения смысла.

 

     Благодаря росту производительности и развитию возможностей компьютеров, разработка систем машинного перевода стала реальностью. Разработка первых систем была основана на лингвистических знаниях. Но лингвистике не удалось покрыть широкий диапазон актуальных феноменов использования языка. Анализ производился для ограниченных случаев. В 80-е годы ученые инициировали разработки в области описания грамматик. Грамматики, основанные на формальных, правильно написанных текстах, не имели полной практической ценности. Только про 60% грамматических правил, выработанных лингвистами, можно было сказать, что они работают на практике. В реальности, различные варианты в языке были слишком многочисленны.

    

 

90-е годы. Разрешение омонимии. Возрождение подхода «снизу-вверх»: эмпирицизм.

 

      Подход к разрешение омонимии смысла термина основывается на выявлении слов, в контексте которых он находится. На большом корпусе текстов (например, «Нью-Йорк Таймс» за 20 месяцев) достигается 90%-ная точность в разрешении неоднозначности слова «capital», которое может означать в английском языке и финансовый капитал и столицу. В настоящее время предлагается подход, в котором перевод ранее незнакомых слов может быть оценен согласно сходству терминов, в контексте окружения которых находится это слово.

 

     Эмпирицизм, новый вариант подхода «снизу-вверх», предлагает архитектуру, более радикальную, чем старые подходы, ориентированные на данные. В начале 90-х годов IBM выпускает систему статистического машинного перевода (SMT-statistical machine translation). Система обнаруживает ряд английских и французских выражений, которые не могли бы быть распознаны вручную, посредством «чистой» методологии машинной трансляции. Используются статистические алгоритмы ( EM, Виттерби и др). Система требует большой объем памяти и высокую производительность компьютеров, большой  объем качественных пар слов для перевода ( обучающие данные).

 

    Как мы можем получить достаточно большой набор реальных лингвистических данных, чтобы произвести внятный анализ или автоматически построить грамматику – именно такой вопрос встал перед компьютерной лингвистикой с 90-х годов, когда основным направлением стала статистическая обработка текстов.

 

 

 

 

2.4. Современные результаты компьютерной лингвистики.

 

Результаты нового подхода должны быть обработаны и подвергнуты анализу.

Возможно ли описать грамматику, которая соприкасается с таким широким набором языковых феноменов? Возможно ли получить достаточно лингвистических данных?

Во многих случаях у исследователей недостает данных для анализа лингвистических феноменов в результате разбросанного характера данных. Например, когда они пытаются определить вероятность для каждой из пар последовательно идущих терминов, они не могут найти лингвистических данных с какими-то из таких пар, хотя такие сочетания являются правильными с точки зрения языка. Один из подходов состоит в улучшении точности приближения путем статистической обработки небольших рабочих образцов.

В реальности, исследователям приходится работать с низкокачественными данными в сопоставляемых для перевода парах. Когда данные не могут быть сопоставлены, используются двуязыковые корпуса в той же предметной области.  Как минимум для решения проблемы требуются словари для базовых лексиконов и быстрые компьютеры с большим объемом памяти. При этом парадигмы машинного обучения выглядять на сегодняшний день мало подходящими для целей АОТ.

 

 [править]

 

 

3. История компьютерной лингвистики в СССР и России.

 

3.1. До теории «Смысл↔Текст».

Компьютерная лингвистика родилась в январе 1954 года, когда в Джорджтаунском университете (США) был проведен первый в мире публичный эксперимент по машинному переводу. В те же времена под руководством крупнейшего математика и кибернетика Алексея Ляпунова начались активные работы по машинному переводу и в Москве. В созданную Ляпуновым группу вошли, в частности, тогдашние студенты и аспиранты, будущие «родители» отечественной компьютерной лингвистики Игорь Мельчук и Ольга Кулагина.

Впрочем, основа для успехов отечественных ученых закладывалась намного раньше. В 1920-х годах в России велись интенсивные исследования по семиотике текста, в то время как широкомасштабное изучение семиотики во всем мире относится только к началу 1960-х годов (что в значительной мере связано с работами эмигрировавшего из России в 1920 году создателя структурной лингвистики Романа Якобсона). Стремительный прогресс семиотики стал основой для сближения лингвистики и математики на почве популярного в 1950-60-е годы математического структурализма, в духе предельно формализованных математических структур Бурбаки. Идеи семиотики объединяли крупнейших ученых, среди которых математик Владимир Успенский и лингвист Вячеслав Иванов. )Успехи формального подхода к описанию языка наглядно продемонстрировали возможность превращения чисто гуманитарной науки в логически строгую дисциплину.

Работы по кибернетике и, в частности, по структурной лингвистике, развернутые в конце 50-х годов под руководством академика Акселя Берга и члена-корреспондента АН СССР Алексея Ляпунова, вывели отечественную науку на передовые позиции. Уже в начале 1956 года в Институте прикладной математики (ИПМ) им. М. В. Келдыша заработала первая отечественная система машинного перевода с французского на русский язык. Система ФР-I давала перевод явно более высокого качества, чем у американцев. Интересно, что математики рассматривали алгоритмы машинного перевода как частные случаи изучаемых в кибернетике алгоритмов перекодирования.

Огромное значение имело выработанное Алексеем Ляпуновым и Ольгой Кулагиной теоретико-множественное представление грамматических категорий языка. Эти результаты были получены независимо от работ Ноама Хомского (Noam Chomsky), считающегося создателем теории формальных грамматик. Большую роль сыграли работы Игоря Мельчука по автоматическому грамматическому анализу. Обобщения и систематизация результатов математической лингвистики позволили создать стройную теорию формальных языков. Проблема заключалась в одном: аппарат теории формальных языков был очень хорош для искусственных языков, в частности для языков программирования, но не давал приемлемых результатов для анализа естественного языка и построения адекватной системы машинного перевода.

Впоследствии сам Мельчук признал, что работы по автоматическому синтаксическому анализу русского языка были «абсолютно тупиковые». А могло ли быть иначе? Искусственные языки специально создаются так, чтобы было удобно манипулировать формальными конструкциями, описывающими «прозрачную» семантику, которая сводится, как правило, к конкретным действиям. Таковы алгоритмические языки в программировании. В естественном языке есть нечто большее - буквальная семантика, с которой и связано понимание человеком текста. Понимание это может быть не таким уж простым даже для носителя языка и связано с мыслительными процессами, а не с формальными правилами описания самого языка. Поэтому для автоматического перевода надо уметь описывать смысл фразы, а не ее формальную запись.

Очевидные сегодня идеи были выстраданы и обнародованы несколько десятилетий назад Игорем Мельчуком и Александром Жолковским. Разработка ими лексических функций, создание теории «Смысл<->Текст» явились колоссальным скачком в построении строгой концептуальной системы, применимой для анализа естественного языка.

 

 

3.2. Теория «Смысл<->Текст».

По замыслу её создателей, ТСТ является универсальной теорией, то есть может быть применима к любому языку. На практике основным материалом для неё служил русский язык; в 1980-е и последующие годы теория разрабатывалась применительно к данным английского и французского языков. Фрагменты морфологических описаний, выполненных в рамках идеологии ТСТ, имеются для более значительного числа типологически разнородных языков.

Теория «Смысл ↔ Текст» представляет собой описание естественного языка, понимаемого как устройство («система правил»), обеспечивающее человеку переход от смысла к тексту («говорение», или построение текста) и от текста к смыслу («понимание», или интерпретация текста); отсюда символ двунаправленной стрелки в названии теории. При этом приоритет в исследовании языка отдаётся переходу от смысла к тексту: считается, что описание процесса интерпретации текста может быть получено на основе описания процесса построения текста. Теория постулирует многоуровневую модель языка, то есть такую, в которой построение текста на основе заданного смысла происходит не непосредственно, а с помощью серии переходов от одного уровня представления к другому. Помимо двух «крайних» уровней — фонологического (уровня текста) и семантического (уровня смысла), выделяются поверхностно-морфологический, глубинно-морфологический, поверхностно-синтаксический и глубинно-синтаксический уровни. Каждый уровень характеризуется набором собственных единиц и правил представления, а также набором правил перехода от данного уровня представления к соседним. На каждом уровне мы имеем дело, таким образом, с особыми представлениями текста — например, глубинно-морфологическим, поверхностно-синтаксическим и т. п.

Семантическое представление является неупорядоченным графом («сетью»), синтаксические представления являются графическим деревом («деревом зависимостей»), морфологическое и фонологическое представления линейны.

Наиболее оригинальными чертами ТСТ является её синтаксическая теория, теория лексических функций и семантический компонент — Толково-комбинаторный словарь.

Синтаксический компонент ТСТ предусматривает существование двух синтаксических уровней — поверхностного и глубинного. Для описания синтаксических отношений используется аппарат синтаксиса зависимостей (восходящий к Л. Теньеру); большое значение имеет (также восходящее к Теньеру) противопоставление актантов и сирконстантов. Выделяется большое число (несколько десятков) так называемых поверхностно-синтаксических отношений и небольшое число глубинно-синтаксических. Синтаксис ТСТ в большой степени проникнут семантикой (в глазах критиков это его очень существенный недостаток, в глазах сторонников — напротив, одно из главных достоинств); он во многом выводится из структуры толкования, в которой задается модель управления лексемы и перечисляются её сочетаемостные свойства.

В целом можно сказать, что синтаксическая теория в рамках ТСТ — это прежде всего описание устройства предикатной группы, то есть особенностей глагольного управления. Именно этим объясняется тесная связь с лексической семантикой: как хорошо известно, классификация глаголов по синтаксическим свойствам часто имеет семантические корреляты. Такого рода исследований в европейской и американской лингвистике во время создания ТСТ было относительно немного; важность семантической классификации лексики стала осознаваться позднее. С другой стороны, те области, которые в основном исследовались западными синтаксистами (и теми российскими синтаксистами, которые работали в иных теоретических рамках), в ТСТ почти не были отражены: это, например, синтаксис полипредикатных конструкций (как финитных, так и нефинитных) и так наз. синтаксические процессы (анафора, рефлексивизация, эллипсис и т. п.).

Толково-комбинаторный словарь — одно из главных теоретических изобретений Мельчука. В каком-то смысле можно сказать, что языковая модель по Мельчуку вообще имеет тенденцию представлять язык как совокупность словарных статей с огромным количеством разнообразной информации; грамматические правила при таком словаре играют скорее второстепенную роль. В то время, когда создавалась ТСТ, такой подход был новым, семантическая (и тем более лексикографическая) информация не считалась важной для построения грамматических описаний.

В Толково-комбинаторный словарь входило толкование слова и его модель управления. Толкование представляло собой запись на формализованном метаязыке; семантически более сложные элементы объяснялись через более простые. Предполагалось (как и в теории А. Вежбицкой), что существуют элементарные смыслы, далее неразложимые — семантические примитивы; но, в отличие от опытов А. Вежбицкой, в ТСТ семантические примитивы практически не использовались. Также в отличие от А. Вежбицкой, признавались искусственные элементы семантического метаязыка (например, для выражения общего значения каузации использовался искусственный глагол каузировать).

Модель управления содержала информацию обо всех семантических и синтаксических актантах слова и о способах их морфологического и синтаксического выражения. Большую часть словарной статьи занимало описание лексических функций — понятие, придуманное Жолковским и Мельчуком для описания того, что они называли «нестандартной сочетаемостью». Так, считалось, что в выражениях круглый дурак и проливной дождь прилагательное имеет одно и то же значение, выражая одну и ту же «лексическую функцию» (в ТСТ она называлась Magn). Было выделено несколько десятков лексических функций, подлежащих описанию в Толково-комбинаторном словаре.

Теория «Смысл ↔ Текст» с самого начала создавалась с сильным акцентом на прикладной проблематике автоматического («машинного») перевода — по замыслу Мельчука, с её помощью, в отличие от традиционных нестрогих теорий, следовало обеспечить построение «действующей» модели языка. Само возникновение этой теории было связано с началом работы Мельчука над машинным переводом (в Лаборатории машинного перевода при МГПИИЯ под руководством В. Ю. Розенцвейга) и его неудовлетворённостью существующими теориями; с другой стороны, предполагалось, что программы машинного перевода будут на эту теорию опираться. ТСТ действительно была использована в некоторых системах машинного перевода, разработанных в России — прежде всего, в системе англо-русского автоматического перевода ЭТАП, созданной уже после эмиграции Мельчука группой под руководством Ю. Д. Апресяна. Некоторые элементы идеологии ТСТ были также использованы в ряде других систем машинного перевода, создававшихся в 1960—1970-е гг. во Всесоюзном центре переводов под руководством Н. Н. Леонтьевой, Ю. С. Мартемьянова, З. М. Шаляпиной и др. Все эти системы относятся к числу экспериментальных, то есть их промышленное использование не представляется возможным.

Значение ТСТ в истории лингвистики оценить непросто. Её последователей в настоящее время мало, и интерес к этой теории со стороны молодого поколения лингвистов крайне незначителен. На Западе эта теория известна плохо за пределами узкой группы ближайших учеников и сотрудников Мельчука; даже доброжелательные рецензенты называют Мельчука «великим аутсайдером». В России с критикой этой теории выступают многие синтаксисты, ориентирующиеся на генеративную идеологию (как, например, Я. Г. Тестелец). С их точки зрения, ТСТ вообще не является лингвистической теорией, поскольку не содержит «правил» и «обобщений» в духе последних построений Хомского, а содержит только эмпирические правила, не мотивированные никакими соображениями «универсальной грамматики».

В то же время, с не менее острой критикой ТСТ выступают и те российские лингвисты, кто (как, например, А. Е. Кибрик) придерживается функционального и когнитивного подхода. Критики этого направления указывают на слишком жёсткую и механистическую идеологию ТСТ, не признающую континуальности в языке, не стремящуюся к поиску объяснений наблюдаемых фактов, не учитывающую дискурсивных и когнитивных механизмов функционирования языка.

Если в ряде важных идеологических отношений ТСТ представляется нынешнему поколению лингвистов в целом устаревшей, то роль Мельчука и его теории в истории отечественной лингвистики вряд ли может быть преуменьшена. В момент создания это была по существу первая после долгого перерыва российская теория языка, находившаяся на уровне мировых достижений, и в этом смысле Мельчук может считаться прямым продолжателем традиции Якобсона и Трубецкого. Личная роль Мельчука — бесспорного неформального лидера отечественной лингвистики 1960—1970-х гг. — в изменении научного климата в СССР также очень велика. И если ТСТ в том виде, как она была создана Мельчуком, и сходит со сцены, то косвенное влияние её на российскую лингвистику следует всё же считать значительным. По-видимому, наиболее плодотворным воплощением этой теории в начале XXI в. является Московская семантическая школа, привнёсшая целый ряд радикальных новшеств в лексикографическую теорию и практику.

Питерским математиком Виталием Тузовым недавно была создана модель естественного языка, использующая упрощенный вариант идей Мельчука. В модели Тузова сделана попытка свести задачу извлечения информации из текста к задаче преобразования текста на формальном семантическом языке во внутреннее представление базы знаний.

Путь идей к признанию иногда очень долог и труден. Потребовалось более тридцати лет, чтобы перейти к реальным разработкам на основе созданной Валентином Турчиным теории суперкомпиляции . Сменилась элементная база, появились совершенно новые технологии программирования, и то, что раньше многие причисляли к нереализуемым теоретическим изыскам, становится востребованным. Возможно, такой же путь ждет и теорию Мельчука. Наверное, неслучайно похожи судьбы этих ученых.

Компьютерная лингвистика стремительно развивалась в СССР в 1960-е годы. Однако в следующем десятилетии работы в области машинного перевода оказались под жестким государственным контролем. В отличие от атомного проекта (время уже было другое), этот контроль не сконцентрировал силы отечественных ученых, а наоборот, способствовал прекращению или замедлению многих работ. Явная «нелюбовь» властей того времени к одному из ярчайших представителей отечественной лингвистики Юрию Апресяну на долгие годы затормозила самый интересный из отечественных проектов. Исследования по машинному переводу в ИПМ им. М. В. Келдыша тоже практически прекратились…

3.3. 70-е-80-е годы.

С середины семидесятых годов во всем мире наблюдается устойчивое возрастание интереса к машинному переводу. В Москве в 1974 в институте ИНФОРМ-ЭЛЕКТРО начались работы по созданию системы франко-русского перевода (ЭТАП-1) и системы англо-русского перевода (ЭТАП-2). В том же году создается Всесоюзный центр переводов (ВЦП), в котором ряд научных коллективов работает над системами машинного перевода – АМПАР (англо-русский перевод), НЕРПА (немецко-русский перевод) и ФРАП (французско-русский перевод). С этого времени промышленные системы машинного перевода разрабатываются и широко используются в США, Европе и Японии.

Системы семейства ЭТАП работали в режиме качественного перевода на основе полного синтаксического анализа и в режиме пословного перевода, в процессе которого привлекался только морфологический анализ. Второй вариант использовался в тех случаях, когда возникали проблемы с синтаксическим анализом фразы. По архитектуре системы семейства ЭТАП относятся к системам машинного перевода с трансфером: анализ-преобразование (трансфер)-синтез. Однако в идеологии их построения имеются важные концептуальные особенности: в качестве теоретической основы положены постулаты модели «Смысл↔Текст», предполагающей независимое лингвистическое описание от алгоритмов программы, отказ от привязки синтаксиса и морфологии к конкретной проблемной сфере (разумеется, словаря это касается в меньшей степени). В СМП ЭТАП-1 перевод происходит через поверхностно-синтаксическую структуру, а в СМП ЭТАП-2 перевод осуществляется на уровне нормализованных синтаксических структур, которые занимают промежуточное положение между поверхностно-синтаксической и глубинно-синтаксической структурами.

Начало работ над системой ФРАП относится к 1975 г. В этом году во Всесоюзном центре переводов начала работать группа исследователей под руководством Н.Н. Леонтьевой. В техническом задании к системе указывалось, что СМП должна обеспечивать перевод небольшого количества документов, не имеющих жестких тематических ограничений. Такая постановка задачи существенно осложнила разработку системы, поскольку большинство имеющихся реально работающих СМП привязаны к конкретной проблемной области. Было реализовано две экспериментальные версии системы (полная версия – в 1980 г., вторая – в 1985 г.). Архитектура СМП ФРАП основывалась на стратегии перевода через язык-посредник семантического типа. Синтаксический анализ в системе не обязательно должен всегда давать правильные синтаксические структуры, однако на этапе работы семантического блока даже неправильные и неполные синтаксические структуры получают семантическую интерпретацию, которая далее преобразуется в текст на выходном языке. Иными словами, выбранная стратегия оказывается «помехоустойчивой». Синтаксический компонент системы не зависим от конкретной проблемной области; роль связующего мостика между разными тематическими областями выполняет семантический компонент. В существующем варианте системы реализована лишь часть модели, выполняющая следующие функции: построение посрочника, грамматический режим, неполный семантический режим.

Теоретическая особенность СМП ФРАП заключается в том, что в процессе работы системы текст входного языка интерпретируется не только на семантическом, но и на информационном уровне – в терминах категорий тезауруса той проблемной области, которая в данный момент обслуживается системой. Информационный уровень представления должен обеспечивать в перспективе и построение реферата по тексту перевода.

Переводческий комплекс АНРАП структурно состоит из двух больших систем – АМПАР (англо-русский перевод) и НЕРПА (немецко-русский перевод), разрабатывавшихся с конца 50-х гг. разными научными коллективами. Объединение этих систем связано с общим программным обеспечением, общим русским словарем и общим блоком русского морфологического синтеза. Переводческий комплекс предназначен для использования в крупных информационных службах и переводческих организациях для перевода текстов различных тематических областей. Для обеспечения тематической привязки предусматривается возможность подключения дополнительных терминологических словарей, описывающих конкретные тематические сферы. Система АМПАР занимает центральное положение в комплексе АНРАП. Теоретические основания СМП АМПАР были заложены в исследованиях И.К.Бельской. Руководили проектной группой АМПАР сначала Ю.А.Моторин и позже Ю.Н.Марчук. В промышленную эксплуатацию система принята в 1981 году. На 1987 г. Система была установлена в ВЦП и пяти отраслевых организациях. СМП НЕРПА сдана в промышленную эксплуатацию в 1985 году. Технологически в системах АМПАР и НЕРПА реализована прямая стратегия  перевода, опирающаяся на значительные по объему словари. В СМП АМПАР программа взаимодействует с шестью различными словарями: 1) английский морфологический словарь; 2) словарь фразеологических выражений; 3) переводной словарь однозначных слов; 4) переводной словарь многозначных слов, представленных в виде процедурных правил выбора значений; 5) словарь перевода многозначных слов по умолчанию; 6) словарь русских слов с морфологической, словообразовательной и синтаксической информацией. Обращение к каждому словарю образует отдельный цикл. Скорость перевода довольно высока (3-5 авторских листов в час), что является необходимым условием функционирования промышленных систем машинного перевода, однако качество перевода невысоко. Постредактирование переводов оказывается необходимым.

 

3.4. Современные коммерческие системы.

Львиную долю российского рынка систем машинного перевода составляют продукты компаний PROMT и ABBYY(Lingvo).

 

В основу фундамента технологии перевода PROMT были заложены формализм расширенных сетей переходов (ATNAugmented Transition Network) и использование двух «переводческих технологий» в одном продукте – технологии машинного перевода (Machine Translation) и технологии Translation Memory. Эффект от взаимного применения двух технологий позволяет обеспечить практически 100%-ное качество перевода при работе с повторяющимися текстами.

  

 Программы, разработанные на основе технологии машинного перевода осуществляют связный перевод текста, используя определенные лингвистические алгоритмы. Сначала система анализирует структурные элементы входного предложения, затем преобразует его в соответствии со структурой языка и синтезирует окончательный вариант. Кроме того, для повышения качества перевода программа должна уметь распознавать устойчивые выражения, а также иметь большой словарный запас. Для перевода тематических  текстов обычно требуется подключать специализированные словари. С помощью систем с технологией машинного перевода можно быстро получить черновой вариант перевода, отражающий общий смысл текста.

   

Translation Memory – технология, использующая базу данных, где хранятся выполненные профессионалом переводы в виде сегментов текста оригинал-перевод. Эта технология базируется на сравнении документа, который нужно перевести, с данными, хранящимися в предварительно созданной базе переводов. Технология работает по принципу накопления: в процессе перевода в базе сохраняется исходный сегмент (предложение) и его перевод. При обработке нового текста, поступившего на перевод, система сравнивает каждое его предложение с сохраненными в базе сегментами. Если идентичный или подобный исходному сегмент найден, то перевод этого сегмента отображается вместе с переводом и указанием совпадения в процентах. Слова и фразы, которые отличаются от сохраненного текста выделяются подсветкой. Таким образом, переводчику остается перевести только новые сегменты и отредактировать частично совпадающие. Каждое изменение или новый перевод сохраняются в базе. В результате необходимость в повторном переводе одного и того же предложения отпадает.

 

4. Послесловие.

Мы пока не знаем, какие возможности даст человечеству надвигающаяся новая компьютерная революция. Однако можно надеяться, что компьютерная лингвистика перейдет на совершенно новую технологическую базу, основа которой закладывается в наше время.

 

 

 

 

5. Использованная литература и другие источники:

 

  1. P.J.Hancox, Natural Language Processing, modul SEM1A5, School of  Computer Science   University of Birmingham, 1995/96.
  2. Jyunichi Tsujii, History of Natural Language Processing, Monthly Issue “Language & Computer”, Tokyo, 2000.
  3. http://ru.wikipedia.org/wiki/
  4. www.promt.ru
  5. А.Чеповский, «Неразрешимая проблема компьютерной лингвистики», «Компьютера» №30 от 02 августа 2002 года, Москва.

      6. А.Н.Баранов, «Введение в прикладную лингвистику», ЛКИ, Москва, 2007 год.

 

 

Hosted by uCoz