Лингвистическое обеспечение управления терминологией при переводе с русского языка

Общие сведения

Предложение адресовано переводческим агентствам, занимающихся переводом значительных объемов специальных текстов с русского языка на иностранный.

Предлагаемая услуга заключается в оперативном создании исчерпывающего перечня терминов и терминологических сочетаний, которые употребляются в текстах, подлежащих переводу, а также в многоплановой лингвистической индексации извлеченных терминов и терминологических сочетаний для эффективного контроля терминологии как при использовании средств Translation Memory (TM), так и без них.

Предложение может быть интересно и переводческим агентствам, работающим только со штатными переводчиками, и тем, которые привлекают внештатных / удаленных сотрудников.


МЫ НЕ ПРЕДЛАГАЕМ КУПИТЬ ПРОДУКТ.
МЫ ПРЕДЛАГАЕМ ВОСПОЛЬЗОВАТЬСЯ УСЛУГОЙ


Основные понятия

В настоящем предложении использованы следующие понятия.

Наверх

Описание услуги

На вход ЭТС подается файл (набор файлов) с машиночитаемой текстовой информацией: TXT, HTML, SGML, XML, MS Office, Open Office, TMX, InDesign, QuarkXPress, PageMaker, Framemaker, PDF, DWG, DFX (последние три – с известными оговорками). Предполагается, что единовременно анализируются файлы, посвященные одной теме / относящиеся к одной предметной области. На выходе формируется таблица (XLS/CSV/TXT) или файлы в формате TBX/MTF/ANS, которые в зависимости от формата и желания заказчика могут содержать следующие поля:

Сравнение возможностей, реализованных в ЭТС и в аналогичных продуктах, приведено в Таблице 1.

Наверх

Варианты формирования терминологического портрета текста

Предусмотрены следующие параметры извлечения ТС:

Кроме того, на основе анализа состава извлеченных ТС для обеспечения единства терминологии на языке перевода возможно автоматическое формирование индексированных перечней следующих ТС:

Следует отметить, что от выбора того или иного варианта формирования ТПТ зависит количество времени, затрачиваемого на анализ текстов.


Также возможна автоматическая генерация всех падежных форм ТС (для загрузки в словарь используемого средства TM, если оно не имеет модуля русской морфологии).


Наверх

Использование терминологического портрета текста

Изначально формирование ТПТ ориентировано на использование совместно с инструментами TM, не имеющими модуля русской морфологии, и призвано значительно повысить эффективность работы редактора (координатора, руководителя проекта) по управлению терминологией проекта и сократить время, затрачиваемое им на проверку выполненного перевода. Кроме того, использование исчерпывающего ТПТ, интегрированного в ТМ, позволяет сократить время, затрачиваемое на перевод переводчиком, а также сократить фонд оплаты труда.

Варианты использования перечней ТС, автоматически извлеченных из документов до начала перевода, в технологической цепочке работы переводческого агентства:

  1. Редактор (координатор, руководитель проекта) организует перевод перечня ТС и отдает переводчику (переводчикам) текст для перевода с исчерпывающим глоссарием к нему в виде перечня или подключенным к используемой среде TM.
  2. Редактор (координатор, руководитель проекта) вместе с текстом для перевода отдает переводчику (переводчикам) непереведенный перечень ТС, обязывая перевести и документ, и перечень ТС.

В настоящее время не все процессы полностью автоматизированы; некоторые, особенно те, которые касаются снятия омонимии и семантического анализа, требуют участия квалифицированного оператора. Ориентировочно анализ файлов общим объемом до 400 000 знаков и формирование соответствующих списков занимает от 8 до 10 часов (при анализе текстов новой тематики дополнительное время может потребоваться на присвоение семантических и синтаксических индексов специальной лексике новой предметной области).

Наверх

Таблица 1. Сравнение предлагаемого подхода к извлечению терминологии с другими аналогичными продуктами для русского языка

№ п/пПродуктРеализовано в продуктеПредлагается в ЭТС
1. RMLИзвлекаются только пары слов, связанных подчинительной, сочинительной или предикативной связью и расположенных как непосредственно рядом друг с другом, так и дистантно.Извлекаются номинативные ТС произвольной длины с компонентами, непосредственно следующими друг за другом (для возможности их обработки средствами TM)
2

Trados (SDL MultiTerm Extract 2007 + SDL PhraseFinder), также ПРОМТ TerM (напр., в ProMT 8.5 Expert)

Извлекаются двух-, трех-, максимум четырехсловные номинативные сочетания с заданным порогом частотности и с учетом веса входящих в них компонентовИзвлекаются все ТС с учетом их семантики и синтаксических связей.
3 TextAnalystИзвлекаются повторяющиеся сочетания слов произвольной длины, не обязательно представляющие собой законченную синтаксическую конструкцию (для построения семантической сети текста на основе вычисляемого веса компонентов извлеченных сочетаний).
4WordTabulatorИзвлекаются или синтагмы произвольной длины, которые заведомо больше ТС, или сочетания последовательно идущих друг за другом слов (двух-, трех-, четырехсловные и т.д.) безотносительно к их семантике и синтаксическим связям.

Примечания

[1] ТС с предложно-падежными сочетаниями выявляются на основании загруженных в ЭТС лексико-грамматических шаблонов с учетом семантики главного и зависимых слов; набор этих шаблонов, конечно же, не может покрывать все возможные в текстах той или иной предметной области синтаксические конструкции, однако он постоянно пополняется

[2] В основном, на основании доступных лексикографических источников индексированы общеупотребительные слова-синонимы и слова-синонимы отдельных предметных областей (судостроение, авиастроение, бурение нефтяных и газовых скважин), однако в ЭТС предусмотрены средства выявления синонимов и вариантов еще не индексированных в существующей базе данных.

Наверх

Используются технологии uCoz