Машинный перевод на основе правил
Машинный перевод на основе правил (Rule-Based Machine Translation) — общий термин, который обозначает системы машинного перевода на основе лингвистической информации об исходном и переводном языках. Они состоят из двуязычных словарей и грамматик, охватывающих основные семантические, морфологические, синтаксические закономерности каждого языка. Такой подход к машинному переводу еще называют классическим. На основе этих данных исходный текст последовательно, по предложениям, преобразуется в текст перевода. Эти системы противопоставляют системам машинного перевода, которые основаны на примерах. Принцип работы таких систем — связь структуры входного и выходного предложения.
RBMT системы делятся на три группы:
- системы пословного перевода;
- трансферные системы (Transfer) — преобразуют структуры входного языка в грамматические конструкции выходного языка;
- интерлингвистические системы (Interlingua)- промежуточный язык описания смысла.
Основным достоинством систем на основе трансфера является высокая полнота охвата текстов при приемлемом уровне качества перевода, а также низкий уровень затрат на первичную разработку и модернизацию.
Компоненты типичной RBMT:
- Лингвистические базы данных: — двуязычные словари; — файлы имен, транслитерации; — морфологические таблицы.
- Модуль перевода: — грамматические правила; — алгоритмы перевода.
Особенности RBMT систем:
- Преимущества: — синтаксическая и морфологическая точность; — стабильность и предсказуемость результата; — возможность настройки на предметную область.
- Недостатки: — трудоемкость и длительность разработки, — необходимость поддерживать и актуализировать лингвистические БД; — «машинный акцент» при переводе.