要約
幻覚と的外れな翻訳は、特にリソースの少ない言語や大規模な多言語モデルの場合、機械翻訳における未解決の問題のままです。
このペーパーでは、再トレーニングや外部モデルを必要とせずに、デコード目標を変更して両方の失敗ケースを軽減する方法を紹介します。
ソース対比デコードでは、正しい入力が与えられた場合は可能性が高いが、ランダムな入力セグメントが与えられた場合はありそうもない翻訳を検索し、どちらの場合でも幻覚が同様に発生する可能性があると仮説を立てます。
言語対比デコードでは、可能性はあるものの、間違った言語インジケーター トークンが与えられた場合にはありそうもない翻訳を検索します。
M2M-100 (418M) および SMaLL-100 での実験では、これらの方法が幻覚とオフターゲット翻訳を効果的に抑制し、テストされた 57 の翻訳方向にわたって chrF2 が平均して 1.7 ポイントおよび 1.4 ポイント向上することがわかりました。
英語 – ドイツ語に関する概念実証では、Llama 2 チャット モデルを使用して的を外れた翻訳を抑制できることも示し、LLM を使用した機械翻訳へのこの方法の適用可能性を実証しました。
ソースコードは https://github.com/ZurichNLP/ContraDecode で公開しています。
要約(オリジナル)
Hallucinations and off-target translation remain unsolved problems in machine translation, especially for low-resource languages and massively multilingual models. In this paper, we introduce methods to mitigate both failure cases with a modified decoding objective, without requiring retraining or external models. In source-contrastive decoding, we search for a translation that is probable given the correct input, but improbable given a random input segment, hypothesising that hallucinations will be similarly probable given either. In language-contrastive decoding, we search for a translation that is probable, but improbable given the wrong language indicator token. In experiments on M2M-100 (418M) and SMaLL-100, we find that these methods effectively suppress hallucinations and off-target translations, improving chrF2 by 1.7 and 1.4 points on average across 57 tested translation directions. In a proof of concept on English–German, we also show that we can suppress off-target translations with the Llama 2 chat models, demonstrating the applicability of the method to machine translation with LLMs. We release our source code at https://github.com/ZurichNLP/ContraDecode.
arxiv情報
著者 | Rico Sennrich,Jannis Vamvas,Alireza Mohammadshahi |
発行日 | 2023-09-13 17:15:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google