Escaping the sentence-level paradigm in machine translation

要約

文書のコンテキストが翻訳のさまざまな曖昧さを解決するために不可欠であることはよく知られており、実際、文書の設定はほぼすべての翻訳にとって最も自然な設定です。
したがって、機械翻訳が研究と制作の両方で、数十年前の文レベルの翻訳パラダイムに大部分が囚われているのは残念なことです。
また、ネイティブにドキュメントベースである大規模な言語モデルからの競争圧力を考慮すると、この問題はますます顕著になっています。
ドキュメントとコンテキストの機械翻訳に関する多くの研究が存在しますが、さまざまな理由により定着することができません。
このペーパーでは、3 つの障害に一度に対処することで、このマンネリから抜け出す道を提案しています。どのようなアーキテクチャを使用すべきか?
彼らを訓練するためのドキュメントレベルの情報はどこで入手できるのでしょうか?
そして、それらが良いものであるかどうかをどうやって知ることができるのでしょうか?
特殊なアーキテクチャでの作業とは対照的に、十分な容量があれば標準の Transformer アーキテクチャで十分であることを示します。
次に、逆翻訳されたデータのみからドキュメント サンプルを取得することでトレーニング データの問題に対処します。この場合、データはより容易に利用できるだけでなく、機械翻訳出力が含まれる可能性がある並列ドキュメント データと比較して高品質になります。
最後に、文書システム間でより適切に識別できる既存の対照的なメトリクスの生成バリアントを提案します。
4 つの大規模データ言語ペア (DE$\rightarrow$EN、EN$\rightarrow$DE、EN$\rightarrow$FR、および EN$\rightarrow$RU) の結果は、これら 3 つの要素を組み合わせてドキュメントを改善することに成功したことを証明しています。
レベルのパフォーマンス。

要約(オリジナル)

It is well-known that document context is vital for resolving a range of translation ambiguities, and in fact the document setting is the most natural setting for nearly all translation. It is therefore unfortunate that machine translation — both research and production — largely remains stuck in a decades-old sentence-level translation paradigm. It is also an increasingly glaring problem in light of competitive pressure from large language models, which are natively document-based. Much work in document-context machine translation exists, but for various reasons has been unable to catch hold. This paper suggests a path out of this rut by addressing three impediments at once: what architectures should we use? where do we get document-level information for training them? and how do we know whether they are any good? In contrast to work on specialized architectures, we show that the standard Transformer architecture is sufficient, provided it has enough capacity. Next, we address the training data issue by taking document samples from back-translated data only, where the data is not only more readily available, but is also of higher quality compared to parallel document data, which may contain machine translation output. Finally, we propose generative variants of existing contrastive metrics that are better able to discriminate among document systems. Results in four large-data language pairs (DE$\rightarrow$EN, EN$\rightarrow$DE, EN$\rightarrow$FR, and EN$\rightarrow$RU) establish the success of these three pieces together in improving document-level performance.

arxiv情報

著者 Matt Post,Marcin Junczys-Dowmunt
発行日 2024-05-16 13:32:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク