Контролируемый язык в машинном переводе

12.05.2022

Использование управляемого языка в машинном переводе создает ряд проблем.

В автоматизированном переводе первым шагом к пониманию контролируемого языка является знание того, что это такое, и различие между естественным языком и контролируемым языком.

Основная проблема машинного перевода - лингвистическая. Язык неоднозначен, и система пытается моделировать язык лексически и грамматически. Для решения этой проблемы существует множество альтернатив: например, может быть использован глоссарий, связанный с тематикой текста.

Контролируемый язык с десятью правилами

Каждый язык имеет свои грамматические правила. По этой причине в каждом языке правила для контролируемых языков различны. Не существует таких правил, которые давали бы подходящие для всех языков результаты. Однако существуют правила, которые снижают уровень двусмысленности в большинстве текстов на многих языках. Согласно статье Уве Мюгге "Контролируемый язык, оптимизированный для унификации перевода" (2002), следует применять следующие десять правил:

1. Пишите предложения, которые короче 25 слов.

  • Будьте кратки (используйте грамотно структурированные предложения)
  • Избегайте двусмысленности и субординации
  • Оцените информацию

2. Пишите предложения, которые выражают только одну идею.

  • Простые предложения
  • Старайтесь не использовать герундий, противопоставление и т. д.

3. Напишите одно и то же предложение, если хотите выразить одно и то же содержание.

  • Не бойтесь повторять
  • Избегайте синонимов

4. Пишите предложения, которые грамматически завершены.

  • Предложения грамматически и орфографически правильные
  • Не используйте многоточие

5. Пишите предложения, имеющие простую грамматическую структуру.

  • Избегайте противопоставления, подчинения, относительных местоимений и т. д.

6. Пишите предложения в активной форме.

  • Избегайте пассивного залога

7. Напишите предложения, которые повторяют существительное вместо местоимения.

  • Избегайте местоимений like, their и т. д.

8. Напишите предложения, в которых артикли используются для идентификации существительных.

  • Используйте то, это и т. д.

9. Пишите предложения, в которых используются слова из общего словаря.

  • Не используйте технические термины

10. Пишите предложения, в которых используются только слова с правильным написанием.

  • Избегайте ошибок

Преимущества использования контролируемого языка

Это позволяет создавать тексты, которые легче читать, понятнее и легче запоминать, а также с лучшим словарным запасом и стилем. Причины введения контролируемого языка включают в себя:

  • Документы, которые более удобочитаемы и понятны, улучшают удобство использования продукта.
  • Контролируемый язык гарантирует объективную и структурированную поддержку в типично субъективной и неструктурированной среде.
  • Управляемые инструментами языковые среды позволяют автоматизировать многие задачи редактирования и обеспечивают объективные показатели качества процесса создания.
  • Более строгий и контролируемый язык, более единообразный и стандартизированный результирующий исходный документ и более высокая частота совпадений в системе памяти переводов, а также стоимость перевода дешевле.
  • Управляемый язык, предназначенный для машинного перевода, значительно улучшит качество генерируемых машиной предложений перевода, а также сократит время и затраты на редактирование человеческих переводчиков.

Контролируемый язык и перевод

Одной из самых больших проблем, стоящих перед организациями, которые хотят сократить затраты и время на перевод, является тот факт, что даже в средах, сочетающих системы управления контентом с технологией памяти переводов, процент непереведенных сегментов на новый документ остается довольно высоким. Хотя, безусловно, можно управлять контентом на уровне предложения/сегмента, в настоящее время лучшей практикой, по-видимому, является фрагментация на уровне темы. Это означает, что повторное использование происходит на довольно высоком уровне детализации.