Предложение адресовано переводческим агентствам, занимающихся переводом значительных объемов специальных текстов с русского языка на иностранный.
Предлагаемая услуга заключается в оперативном создании исчерпывающего перечня терминов и терминологических сочетаний, которые употребляются в текстах, подлежащих переводу, а также в многоплановой лингвистической индексации извлеченных терминов и терминологических сочетаний для эффективного контроля терминологии как при использовании средств Translation Memory (TM), так и без них.
Предложение может быть интересно и переводческим агентствам, работающим только со штатными переводчиками, и тем, которые привлекают внештатных / удаленных сотрудников.
В настоящем предложении использованы следующие понятия.
Сравнение возможностей, реализованных в ЭТС и в аналогичных продуктах, приведено в Таблице 1.
Предусмотрены следующие параметры извлечения ТС:
Кроме того, на основе анализа состава извлеченных ТС для обеспечения единства терминологии на языке перевода возможно автоматическое формирование индексированных перечней следующих ТС:
Следует отметить, что от выбора того или иного варианта формирования ТПТ зависит количество времени, затрачиваемого на анализ текстов.
Также возможна автоматическая генерация всех падежных форм ТС (для загрузки в словарь используемого средства TM, если оно не имеет модуля русской морфологии).
Варианты использования перечней ТС, автоматически извлеченных из документов до начала перевода, в технологической цепочке работы переводческого агентства:
В настоящее время не все процессы полностью автоматизированы; некоторые, особенно те, которые касаются снятия омонимии и семантического анализа, требуют участия квалифицированного оператора. Ориентировочно анализ файлов общим объемом до 400 000 знаков и формирование соответствующих списков занимает от 8 до 10 часов (при анализе текстов новой тематики дополнительное время может потребоваться на присвоение семантических и синтаксических индексов специальной лексике новой предметной области).
№ п/п | Продукт | Реализовано в продукте | Предлагается в ЭТС |
1. | RML | Извлекаются только пары слов, связанных подчинительной, сочинительной или предикативной связью и расположенных как непосредственно рядом друг с другом, так и дистантно. | Извлекаются номинативные ТС произвольной длины с компонентами, непосредственно следующими друг за другом (для возможности их обработки средствами TM) |
2 | Trados (SDL MultiTerm Extract 2007 + SDL PhraseFinder), также ПРОМТ TerM (напр., в ProMT 8.5 Expert) | Извлекаются двух-, трех-, максимум четырехсловные номинативные сочетания с заданным порогом частотности и с учетом веса входящих в них компонентов | Извлекаются все ТС с учетом их семантики и синтаксических связей. |
3 | TextAnalyst | Извлекаются повторяющиеся сочетания слов произвольной длины, не обязательно представляющие собой законченную синтаксическую конструкцию (для построения семантической сети текста на основе вычисляемого веса компонентов извлеченных сочетаний). | |
4 | WordTabulator | Извлекаются или синтагмы произвольной длины, которые заведомо больше ТС, или сочетания последовательно идущих друг за другом слов (двух-, трех-, четырехсловные и т.д.) безотносительно к их семантике и синтаксическим связям. |
[1] ТС с предложно-падежными сочетаниями выявляются на основании загруженных в ЭТС лексико-грамматических шаблонов с учетом семантики главного и зависимых слов; набор этих шаблонов, конечно же, не может покрывать все возможные в текстах той или иной предметной области синтаксические конструкции, однако он постоянно пополняется
[2] В основном, на основании доступных лексикографических источников индексированы общеупотребительные слова-синонимы и слова-синонимы отдельных предметных областей (судостроение, авиастроение, бурение нефтяных и газовых скважин), однако в ЭТС предусмотрены средства выявления синонимов и вариантов еще не индексированных в существующей базе данных.