要約
ニューラル機械翻訳システムは、ソース文が与えられた場合にターゲット文の確率を推定しますが、これらの推定値は人間の好みと一致しない可能性があります。
この研究では、人間の判断との相関性を高める品質推定基準 (QE) を使用して翻訳を合成する方法である QE フュージョンを導入しています。
QE 融合は、モデルからサンプリングされた候補のプールを活用し、CometKiwi などの QE メトリックを使用してさまざまな候補からのスパンを結合します。
我々は、QE 融合をビーム検索および最小ベイズ リスク デコードや QE 再ランキングなどの最近の再ランキング技術と比較します。
私たちの手法は、翻訳に使用される大規模言語モデル (LLM) (PolyLM、XGLM、Llama2、Mistral、ALMA、Tower) および多言語翻訳モデル (NLLB) に適用すると、COMET および BLEURT スコアの観点から翻訳品質を一貫して 5 つ以上向上させます。
言語ペア。
特に、QE 融合は、多様な出力を生成できるため、LLM にとって大きな改善を示します。
私たちのアプローチは、半数以上のケースで新しい翻訳を生成し、さまざまな数の候補 (5 ~ 200) にわたって他の方法よりも一貫して優れていることを示します。
さらに、我々は、QE 融合がプール内の候補数に比例して増加することを経験的に確立しています。
要約(オリジナル)
Neural machine translation systems estimate probabilities of target sentences given source sentences, yet these estimates may not align with human preferences. This work introduces QE-fusion, a method that synthesizes translations using a quality estimation metric (QE), which correlates better with human judgments. QE-fusion leverages a pool of candidates sampled from a model, combining spans from different candidates using a QE metric such as CometKiwi. We compare QE-fusion against beam search and recent reranking techniques, such as Minimum Bayes Risk decoding or QE-reranking. Our method consistently improves translation quality in terms of COMET and BLEURT scores when applied to large language models (LLMs) used for translation (PolyLM, XGLM, Llama2, Mistral, ALMA, and Tower) and to multilingual translation models (NLLB), over five language pairs. Notably, QE-fusion exhibits larger improvements for LLMs due to their ability to generate diverse outputs. We demonstrate that our approach generates novel translations in over half of the cases and consistently outperforms other methods across varying numbers of candidates (5-200). Furthermore, we empirically establish that QE-fusion scales linearly with the number of candidates in the pool.
arxiv情報
著者 | Giorgos Vernikos,Andrei Popescu-Belis |
発行日 | 2024-06-06 17:45:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google