Escaping the sentence-level paradigm in machine translation

要約

タイトル:機械翻訳における文レベル・パラダイムを超えて

要約:
– ドキュメント全体の文脈は翻訳において重要であり、ほとんどの翻訳はドキュメントの設定で行われる。
– しかし、機械翻訳の研究・実装は、以前からある文レベルの翻訳パラダイムに固執している。
– これは、大規模言語モデルからの競争圧力の増大に対しても問題がある。
– ドキュメントコンテキストの機械翻訳の研究は存在するが、どうしても成功していない理由がいくつかある。
– この論文では、どのようなアーキテクチャを使用すべきか、どこから訓練に必要なドキュメントレベルの情報を取得すべきか、そしてそれがどれだけ効果的なのかを解決するための3つの障害に対処することを提案している。
– 専門化されたアーキテクチャに関する研究とは異なり、彼らは、容量が十分であれば、標準のTransformerアーキテクチャが十分であることを示している。
– 次に、バックトランスレーションされたデータからのドキュメントのサンプルを取得することにより、訓練データの問題に対処している。この方法では、平行ドキュメントデータに含まれる機械翻訳の出力よりも、より質の高いデータがより容易に得られる。
– 最後に、既存の対比メトリックの生成バリアントを提案し、これらはより優れたドキュメントシステムを区別できるとされる。
– 四つの大規模言語ペア(DE→EN、EN→DE、EN→FR、およびEN→RU)での結果は、これら3つの要素が合わさることでドキュメントレベルの性能が向上することを示している。

要約(オリジナル)

It is well-known that document context is vital for resolving a range of translation ambiguities, and in fact the document setting is the most natural setting for nearly all translation. It is therefore unfortunate that machine translation — both research and production — largely remains stuck in a decades-old sentence-level translation paradigm. It is also an increasingly glaring problem in light of competitive pressure from large language models, which are natively document-based. Much work in document-context machine translation exists, but for various reasons has been unable to catch hold. This paper suggests a path out of this rut by addressing three impediments at once: what architectures should we use? where do we get document-level information for training them? and how do we know whether they are any good? In contrast to work on specialized architectures, we show that the standard Transformer architecture is sufficient, provided it has enough capacity. Next, we address the training data issue by taking document samples from back-translated data only, where the data is not only more readily available, but is also of higher quality compared to parallel document data, which may contain machine translation output. Finally, we propose generative variants of existing contrastive metrics that are better able to discriminate among document systems. Results in four large-data language pairs (DE$\rightarrow$EN, EN$\rightarrow$DE, EN$\rightarrow$FR, and EN$\rightarrow$RU) establish the success of these three pieces together in improving document-level performance.

arxiv情報

著者 Matt Post,Marcin Junczys-Dowmunt
発行日 2023-04-25 16:09:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク