Predicting Anchored Text from Translation Memories for Machine Translation Using Deep Learning Methods

要約

翻訳メモリ (TM) は、コンピュータ支援翻訳 (CAT) ツールと呼ばれる専門的な翻訳ツールのバックボーンです。
CAT ツールを使用して翻訳を実行するために、翻訳者は TM を使用して、翻訳対象のセグメントに類似した翻訳を収集します。
多くの CAT ツールは、TM 内で s’ との距離が近いセグメントを見つけるためのあいまい一致アルゴリズムを提供します。
2 つの類似したセグメントを見つけた後、CAT ツールは、ソース言語の 1 つのセグメントをターゲット言語での翻訳とともに含む並列セグメント (s、t) を表示します。
さらに、CAT ツールには、TM の並列セグメントを自動的に使用して、s’ の翻訳であることを念頭に置いて、オリジナルの修正バージョンを含む新しい TM エントリを作成するファジーマッチ修復 (FMR) 技術が含まれています。
ほとんどの FMR テクニックは、変更が必要な単語を「修復」する方法として機械翻訳を使用します。
この記事では、アンカーされている単語の大部分に対して、Word2Vec などの機械学習アプローチに基づく他の手法を使用できることを示します。
BERT、さらには ChatGPT も含まれます。
具体的には、連続バッグオブワード (CBOW) パラダイムに従うアンカー単語の場合、Word2Vec、BERT、および GPT-4 を使用して、翻訳においてニューラル機械翻訳と同様の、場合によってはより良い結果を達成できることを示します。
フランス語から英語へのアンカー単語。

要約(オリジナル)

Translation memories (TMs) are the backbone for professional translation tools called computer-aided translation (CAT) tools. In order to perform a translation using a CAT tool, a translator uses the TM to gather translations similar to the desired segment to translate (s’). Many CAT tools offer a fuzzy-match algorithm to locate segments (s) in the TM that are close in distance to s’. After locating two similar segments, the CAT tool will present parallel segments (s, t) that contain one segment in the source language along with its translation in the target language. Additionally, CAT tools contain fuzzy-match repair (FMR) techniques that will automatically use the parallel segments from the TM to create new TM entries containing a modified version of the original with the idea in mind that it will be the translation of s’. Most FMR techniques use machine translation as a way of ‘repairing’ those words that have to be modified. In this article, we show that for a large part of those words which are anchored, we can use other techniques that are based on machine learning approaches such as Word2Vec. BERT, and even ChatGPT. Specifically, we show that for anchored words that follow the continuous bag-of-words (CBOW) paradigm, Word2Vec, BERT, and GPT-4 can be used to achieve similar and, for some cases, better results than neural machine translation for translating anchored words from French to English.

arxiv情報

著者 Richard Yue,John E. Ortega
発行日 2024-09-26 15:12:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク