要約
最近の研究では、大規模言語モデル (LLM) が、少量の並列データのみを使用した教師あり微調整 (SFT) を通じて優れた翻訳パフォーマンスを達成できることが示されています。
ただし、SFT は単にトークン レベルで参照翻訳を模倣するようにモデルに指示するだけなので、参照内に存在するノイズに対して脆弱になります。
したがって、LLM が一定レベルの変換能力に達すると、SFT からの支援は頭打ちになることが多く、並列データのサイズをさらに増やしても追加の利点は得られません。
模倣ベースの SFT に関連するこのプラトーを克服するために、Plackett-Luce モデルに基づいて構築された好みベースのアプローチを提案します。
目的は、LLM が全体的な視点から翻訳の好みをより微妙に理解できるように誘導すると同時に、ゴールド翻訳がない場合でもより柔軟に対応できるようにすることです。
さらに、アプローチの有効性を検証するために、ソース文ごとに品質の異なる複数の翻訳を含む MAPLE という名前のデータセットを構築します。
広範な実験により、多様な LLM とテスト設定にわたって「プラトーを打破する」という点での当社のアプローチの優位性が実証されています。
私たちの詳細な分析により、私たちのアプローチの成功において、多様な翻訳と正確な選好スコアが極めて重要な役割を果たしていることが強調されています。
要約(オリジナル)
Recent research has shown that large language models (LLMs) can achieve remarkable translation performance through supervised fine-tuning (SFT) using only a small amount of parallel data. However, SFT simply instructs the model to imitate the reference translations at the token level, making it vulnerable to the noise present in the references. Hence, the assistance from SFT often reaches a plateau once the LLMs have achieved a certain level of translation capability, and further increasing the size of parallel data does not provide additional benefits. To overcome this plateau associated with imitation-based SFT, we propose a preference-based approach built upon the Plackett-Luce model. The objective is to steer LLMs towards a more nuanced understanding of translation preferences from a holistic view, while also being more resilient in the absence of gold translations. We further build a dataset named MAPLE to verify the effectiveness of our approach, which includes multiple translations of varying quality for each source sentence. Extensive experiments demonstrate the superiority of our approach in ‘breaking the plateau’ across diverse LLMs and test settings. Our in-depth analysis underscores the pivotal role of diverse translations and accurate preference scores in the success of our approach.
arxiv情報
著者 | Dawei Zhu,Sony Trenous,Xiaoyu Shen,Dietrich Klakow,Bill Byrne,Eva Hasler |
発行日 | 2024-08-29 10:10:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google