Машинный перевод

Машинный перевод — процесс, при котором текст или речь переводится с одного естественного языка на другой посредством искусственного интеллекта автоматически, без необходимости вмешательства человека. Первоначальные работы по использованию компьютеров для решения подобных задач опирались на словарные базы и лингвистические правила, современные системы основываются на вероятностных методах, таких как статистический машинный перевод и нейросетевой машинный перевод^[1].

История машинного перевода

Идеи по созданию алгоритмов для перевода с одного языка на другой зародились до появления компьютеров. В 1930-х годах французский инженер армянского происхождения Жорж Артцруни создал двуязычный автоматический словарь с использованием перфоленты. Памятью машины служила бумажная лента, на которой построчно парами записывались слова на двух разных языках. Параллельно первой ленте шла вторая, на которой каждой паре слов соответствовала определенная комбинация отверстий. Искомое слово вводилось в машину с помощью клавиатуры и кодировалось набором штырьков. Затем запускался мотор, протягивающий обе ленты, и машина сравнивала наборы отверстий на второй ленте с расположением штырьков. Когда обнаруживалось совпадение, машина останавливалась, показывая в окошках слова с первой ленты^[2].

В 1933 году советский инженер Пётр Смирнов-Троянский изобрел «машину для подбора и печатания слов при переводе с одного языка на другой». Изобретение Троянского представляло собой стол с наклонной поверхностью и фотокамерой, совмещённой с печатной машинкой. Клавиши машинки позволяли кодировать морфологическую и грамматическую информацию. На изобретение Смирновым-Троянским было получено авторское свидетельство^[3], однако его идеи опередили своё время и нашли применение только в 1950-е годы^[4].

Идея применения ЭВМ для перевода была озвучена в 1947 году в США. Её предложил математик Уоррен Уивер, работавший в Фонде Рокфеллера, обратившийся с письмом к Норберту Винеру:

«Для ЮНЕСКО и для конструктивного и мирного будущего планеты самая серьезная проблема — это перевод, потому что она касается непосредственно коммуникации между людьми. ...я задался вопросом, возможно ли построить компьютер, который будет переводить»

В июле 1949 года Уивер подготовил меморандум «Translation» (англ. translation — перевод), в котором обобщил текущие замыслы и предложения в области машинного перевода, опиравшиеся на достижения криптоанализа шифров, теории информации Клода Шеннона и представления о принципах, объединяющих все естественные языки, накопленные к тому времени. В последующие годы несколько американских университетов начали разрабатывать системы машинного перевода на базе ЭВМ^[4]. Важным событием в развитии машинного перевода стал Джорджтаунский эксперимент, который был проведён 7 января 1954 года в Нью-Йорке, в штаб-квартире корпорации IBM. В рамках этого эксперимента компьютер IBM 701 впервые в мире перевел 60 предложений с русского на английский язык.

В пресс-релизе корпорации отмечалось, что девушка, не знающая русский язык, набрала русские сообщения на перфокартах, а машинный мозг «с бешеной скоростью в две с половиной строки в секунду» выдал их перевод на английский^[4].

Изначальные системы представляли собой в основном массивные двуязычные словарные базы и наборы правил, по которым для каждого слова исходного языка находился соответствующий эквивалент на другом языке. Однако, специалисты быстро поняли, что синтаксические правила для создания правильного порядка слов являются чрезмерно сложными. Таким образом, машинный перевод потребовал более организованных методов синтаксического анализа. В 1950-1960-е годы исследования в области машинного перевода проходили под влиянием новых лингвистических теорий, особенно моделей формальных грамматик, таких как генеративная грамматика, грамматика зависимостей и стратификационная грамматика^[4].

В 1964 году правительство США создало специальную Консультативную комиссию по автоматической обработке языка (ALPAC). Эта комиссия в 1966 году выпустила доклад, утверждающий, что системы машинного перевода не были рентабельными: перевод машиной был медленнее, менее качественным и вдвое дороже, чем услуги человеческих переводчиков. ALPAC сделала заключение, что дальнейшие инвестирования в этой области нецелесообразны. Этот отчёт значительно затормозил развитие машинного перевода в Соединённых Штатах и отразился на проведении работ в Европе.

Однако исследования продолжались. На статью о Джорджтаунском эксперименте обратил внимание основоположник советской кибернетики Алексей Ляпунов и вскоре создал в Математическом институте исследовательскую группу. За ним последовал Дмитрий Панов из Института точной механики и вычислительной техники (ИТМиВТ), а к 1958 году машинным переводом в Советском Союзе занимались уже 79 различных учреждений. В 1971 году в Ленинграде, при ЛГПИ им. Герцена (ныне – РГПУ им. Герцена), по инициативе профессора Раймонда Пиотровского, была создана Научно-исследовательская лаборатория инженерной лингвистики. Специалисты лаборатории активно занимались разработкой технологий для автоматической обработки текста. (Впоследствии, в 1991 году бывшие сотрудники лаборатории под руководством Светланы Соколовой основали компанию PROMT).

В 1970 году Военно-воздушные силы США внедрили систему SYSTRAN, а в 1976 году её начала использовать Европейская комиссия для межъязыкового перевода растущих объемов документации. В Канаде в том же году была запущена Meteo — система, разработанная Монреальским университетом для перевода метеорологических прогнозов. В Советском Союзе исследования в 1960-х годах были сосредоточены на научно-технической документации, переводимой с английского на русский и обратно. Во главу угла была поставлена скорость доступа к информации, а не точность перевода^[4].

К началу 1980-х годов основные системы машинного перевода работали на базах компьютеров-мейнфреймов. Помимо системы SYSTRAN, к этому времени поддерживавшей множество языковых пар, существовали системы Logos, переводившие с английского на немецкий и французский, система Панамериканской организации здравоохранения для пар английский-испанский, система METAL MT, разработанная Техасским университетом в Остине и фирмой Siemens, а также японские системы для пар английский-японский.

С появлением персональных компьютеров и текстовых процессоров появились более доступные и дешёвые системы машинного перевода. Среди таких продуктов выделялись разработки компаний ALPS, Weidner Communications, Linguistic Products и Globalink, а также множество японских компаний, выпускающих микрокомпьютеры для машинного перевода, таких как Sharp, NEC, OKI, Mitsubishi, Sanyo и других. В 1990-х годах начались исследования по машинному переводу разговорной речи^[4]. В дальнейшем, в 2019 году разработчики российской компании PROMT представили новую технологию машинного перевода на основе нейронных сетей — PROMT Neura.

Сейчас в этой области существуют быстрые онлайн-сервисы, сложные клиент-серверные решения для бизнеса и мобильные переводчики, работающие как через интернет, так и в офлайн-режиме.

Методы машинного перевода

Машинный перевод на основе правил

Машинный перевод на основе правил — RBMT (от англ. rule-based machine translation) — технология машинного перевода на основе лингвистической информации об исходном языке и языке перевода. Такая информация извлекается, как правило, из словарей (как лингвистических, так и переводных), описаний грамматики языков и обобщается в виде формализуемых правил, охватывающих основные семантические, морфологические и синтаксические закономерности каждого языка. На основе таких правил исходный текст последовательно, по предложениям преобразуется в текст перевода.

Системы машинного перевода на основе правил делятся на три группы:

системы пословного перевода;
системы машинного перевода на основе трансформации — преобразуют структуры исходного языка в грамматические конструкции языка перевода;
системы, использующие промежуточный искусственный язык — интерлингву — промежуточную (семантическую) модель текста в качестве общего посредника для всех языковых пар.

Статистический машинный перевод

Статистический метод в машинном переводе базируется на сопоставлении большого количества наборов языковых пар. Эти языковые пары состоят из текстов, где одно предложение дано на одном языке, а другое предложение является его аналогом на другом языке. Эффективность статистического машинного перевода возрастает пропорционально количеству языковых пар и точности их соответствия.

Примером таких языковых массивов могут служить парламентские документы, представляющие собой записи парламентских сессий. Парламентские документы издаются в Канаде, Гонконге и иных странах. Официальные бумаги Европейского экономического сообщества переводятся на 11 языков. Организация объединённых наций также публикует свои документы на нескольких языках. Эти материалы оказались чрезвычайно ценными ресурсами для статистического машинного перевода.

Нейронный машинный перевод

Нейронный машинный перевод (англ. Neural Machine Translation, NMT) — подход к машинному переводу, в котором используется искусственная нейронная сеть. Модели NMT отличаются от методов машинного перевода, основанных на статистике фраз тем, что используют глубинное обучение и обучение признакам, что позволяет добиться максимальной эффективности перевода^[5]^[6]^[7].

Майкрософт использует похожую технологию для перевода речи (в том числе в Майкрософт Переводчике и Skype Переводчике)^[8]. Гарвардской группой по обработке естественного языка была выпущена OpenNMT, система нейронного машинного перевода с открытым исходным кодом^[9]. Яндекс.Переводчик имеет гибридную модель: свой вариант перевода предлагает и статистическая модель, и нейросеть. После этого самообучающаяся технология CatBoost будет выбирать лучший из полученных результатов^[10].

Качество перевода

Факторами, от которого зависит качество перевода, являются:

тематика исходного текста;
стиль написания;
грамматическая родственность языков;
синтаксическая и лексическая родственность языков.

Перевод литературных произведений с помощью машинного перевода зачастую оказывается неудовлетворительным. Однако при работе с технической документацией, при наличии специализированных машинных словарей и небольших поправок системы на тип текста, возможно достижение переводов приемлемого уровня, требующих только минимальной редакционной доработки. Чем более формализован текст оригинала, тем выше вероятность получения качественного перевода. Наилучшие результаты машинного перевода, как правило, получаются при работе с техническими текстами (различные описания и инструкции) и с формализованными стилями написания текста^[1].

Литература

Автоматический перевод : [арх. 3 января 2023] / И. М. Богуславский // Большая российская энциклопедия : [в 35 т.] / гл. ред. Ю. С. Осипов. — М. : Большая российская энциклопедия, 2004—2017.
О. С. Кулагина. О современном состоянии машинного перевода // Математические вопросы кибернетики, вып. 3, М.: Наука, 1991, стр. 5—50. Библиография из 140 названий. ISBN 5-02-014323-5.
Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика. — М.: Издательская группа URSS, 2017.

Примечания

↑ ^1,0 ^1,1 Машинный перевод текстов (неопр.). Справочник Автор 24 (19 февраля 2024). Дата обращения: 9 октября 2024.
↑ От системы Кирхера до «электронного мозга»: как развивался машинный перевод (неопр.). TechInsider (26 апреля 2023). Дата обращения: 8 октября 2024.
↑ Машина для подбора и печатания слов при переводе с одного языка на другой или на нескольких языках одновременно. А. с. СССР № 40995, 1935 г.
↑ ^4,0 ^4,1 ^4,2 ^4,3 ^4,4 ^4,5 Hutchins, John. The history of machine translation in a nutshell (англ.) // hutchinsweb.me.uk. — 2014. Архивировано 22 февраля 2024 года.
↑ Wołk, Krzysztof; Marasek, Krzysztof. Neural-based Machine Translation for Medical Text Domain. Based on European Medicines Agency Leaflet Texts (англ.) // Procedia Computer Science : journal. — 2015. — Vol. 64, no. 64. — P. 2—9. — doi:10.1016/j.procs.2015.08.456.
↑ Kalchbrenner, Nal; Blunsom, Philip. Recurrent Continuous Translation Models // Proceedings of the Association for Computational Linguistics. — 2013. Архивировано 23 ноября 2019 года.
↑ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet. Sequence to sequence learning with neural networks // NIPS. — 2014. Архивировано 29 апреля 2017 года.
↑ Microsoft Translator launching Neural Network based translations for all its speech languages – Translator (неопр.). Дата обращения: 4 мая 2017. Архивировано 10 мая 2017 года.
↑ OpenNMT - Open-Source Neural Machine Translation (англ.). opennmt.net. Дата обращения: 22 марта 2017. Архивировано 16 марта 2017 года.
↑ В «Яндекс.Переводчик» встроили нейросеть с фантазией - CNews (неопр.). Дата обращения: 9 октября 2024. Архивировано 8 октября 2017 года.

Ссылки

[:0-1] 1,0 ^1,1 Машинный перевод текстов (неопр.). Справочник Автор 24 (19 февраля 2024). Дата обращения: 9 октября 2024.

[2] От системы Кирхера до «электронного мозга»: как развивался машинный перевод (неопр.). TechInsider (26 апреля 2023). Дата обращения: 8 октября 2024.

[3] Машина для подбора и печатания слов при переводе с одного языка на другой или на нескольких языках одновременно. А. с. СССР № 40995, 1935 г.

[Hutchins_2014-4] 4,0 ^4,1 ^4,2 ^4,3 ^4,4 ^4,5 Hutchins, John. The history of machine translation in a nutshell (англ.) // hutchinsweb.me.uk. — 2014. Архивировано 22 февраля 2024 года.

[5] Wołk, Krzysztof; Marasek, Krzysztof. Neural-based Machine Translation for Medical Text Domain. Based on European Medicines Agency Leaflet Texts (англ.) // Procedia Computer Science : journal. — 2015. — Vol. 64, no. 64. — P. 2—9. — doi:10.1016/j.procs.2015.08.456.

[6] Kalchbrenner, Nal; Blunsom, Philip. Recurrent Continuous Translation Models // Proceedings of the Association for Computational Linguistics. — 2013. Архивировано 23 ноября 2019 года.

[7] Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet. Sequence to sequence learning with neural networks // NIPS. — 2014. Архивировано 29 апреля 2017 года.

[8] Microsoft Translator launching Neural Network based translations for all its speech languages – Translator (неопр.). Дата обращения: 4 мая 2017. Архивировано 10 мая 2017 года.

[9] OpenNMT - Open-Source Neural Machine Translation (англ.). opennmt.net. Дата обращения: 22 марта 2017. Архивировано 16 марта 2017 года.

[10] В «Яндекс.Переводчик» встроили нейросеть с фантазией - CNews (неопр.). Дата обращения: 9 октября 2024. Архивировано 8 октября 2017 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста^[en] Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов^[en] Извлечение коллокаций^[en] Стемминг Лемматизация Распознавание именованных сущностей^[en] Разрешение кореферентности Анализ тональности текста Извлечение концептов^[en] Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии^[en] Извлечение информации Идентификация языка Определение регистра^[en]
Реферирование	Извлечение предложений^[en] Генерация реферата Многодокументное реферирование^[en] Упрощение текста^[en]
Машинный перевод	Автоматизированный Гибридный Интерлингвальный^[en] На основе правил На основе примеров На основе словаря^[en] На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[en] Конкордансер Предиктивный ввод текста Система проверки грамматики^[en] Система проверки правописания Угадывание синтаксиса^[en]
Интерфейс на естественном языке^[en]	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Искусственный интеллект
История	История искусственного интеллекта Зима искусственного интеллекта Дартмутский семинар Регламент ЕС об искусственном интеллекте
Философия	Тест Тьюринга Китайская комната Сильный и слабый искусственные интеллекты Дружественный искусственный интеллект Этика искусственного интеллекта Проблема контроля
Направления	Агентный подход Адаптивное управление Инженерия знаний Модель жизнеспособной системы Машинное обучение Нейронная сеть Нечёткая логика Обработка естественного языка Персональный искусственный интеллект Распознавание образов Роевой интеллект Символический ИИ Эволюционные алгоритмы Экспертная система
Применение	Голосовое управление Задача классификации Классификация документов Кластеризация документов Кластерный анализ Локальный поиск Машинный перевод Оптическое распознавание символов Распознавание речи Распознавание рукописного ввода Игровой ИИ
Исследователи	Чарлз Бэббидж Владимир Вапник Джозеф Вейценбаум Норберт Винер Виктор Глушков Владимир Городецкий Ян Лекун Алексей Ляпунов Джон Маккарти Марвин Мински Аллен Ньюэлл Сеймур Пейперт Джуда Перл Гермоген Поспелов Дмитрий Поспелов Фрэнк Розенблатт Герберт Александер Саймон Алан Тьюринг Патрик Уинстон Виктор Финн Сергей Фомин Демис Хассабис Джеффри Хинтон Ноам Хомский Клод Шеннон Эндрю Ын Элиезер Юдковский