要約
従来の検索された高級神経機械翻訳(RANMT)システムは、バイリンガルコーパスを活用しています。たとえば、翻訳記憶(TMS)。
しかし、多くの設定では、ドメイン内の単一言語のターゲットサイドコーパが利用できることがよくあります。
この作業では、ソースサイドクエリに基づいて、ターゲット言語で関連するセグメントを直接取得することにより、このようなリソースを活用する方法を探ります。
このために、私たちは、文レベルとワードレベルのマッチング目標の両方で訓練された、間向上した横断的検索システムを設計します。
2つのRANMTアーキテクチャを使用した実験では、最初に制御された設定でそのような横断的な目的の利点を示し、標準のTMベースのモデルを上回る翻訳パフォーマンスを取得します。
次に、ターゲットの単一言語リソースが並列データの量をはるかに超え、ベースライン設定と汎用クロスリンガルレトリバーの両方を上回る新しいテクニックの大規模な改善を観察する現実世界のセットアップでメソッドを紹介します。
要約(オリジナル)
Conventional retrieval-augmented neural machine translation (RANMT) systems leverage bilingual corpora, e.g., translation memories (TMs). Yet, in many settings, in-domain monolingual target-side corpora are often available. This work explores ways to take advantage of such resources by retrieving relevant segments directly in the target language, based on a source-side query. For this, we design improved cross-lingual retrieval systems, trained with both sentence level and word-level matching objectives. In our experiments with two RANMT architectures, we first demonstrate the benefits of such cross-lingual objectives in a controlled setting, obtaining translation performances that surpass standard TM-based models. We then showcase our method on a real-world set-up, where the target monolingual resources far exceed the amount of parallel data and observe large improvements of our new techniques, which outperform both the baseline setting, and general-purpose cross-lingual retrievers.
arxiv情報
著者 | Maxime Bouthors,Josep Crego,François Yvon |
発行日 | 2025-04-30 15:41:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google