Machine Translation Hallucination Detection for Low and High Resource Languages using Large Language Models

要約

大規模な多言語機械翻訳システムの最近の進歩により、翻訳の精度が大幅に向上しました。
ただし、最高のパフォーマンスを発揮するシステムでも依然として幻覚が発生し、ユーザーの信頼に重大な影響を与えます。
特に既存の手法は高リソース言語 (HRL) では優れていますが、低リソース言語 (LRL) に適用すると大きな制限があるため、機械翻訳 (MT) における幻覚の検出は依然として重要な課題です。
この論文では、大規模言語モデル (LLM) と大規模な多言語埋め込み内の意味論的類似性を使用した幻覚検出アプローチを評価します。
私たちの研究は 16 の言語方向に及び、HRL、LRL、および多様な文字をカバーしています。
パフォーマンスにはモデルの選択が不可欠であることがわかりました。
平均して、HRL に関しては、Llama3-70B は以前の最新技術を 0.16 MCC (マシューズ相関係数) も上回っています。
ただし、LRL に関しては、Claude Sonnet が他の LLM より平均 0.03 MCC 優れていることがわかります。
私たちの研究から得られる重要な点は、機械翻訳タスク用に明示的にトレーニングされていないにもかかわらず、LLM は以前に提案されたモデルと同等かそれ以上のパフォーマンスを達成できるということです。
ただし、LRL にとってその利点はそれほど重要ではありません。

要約(オリジナル)

Recent advancements in massively multilingual machine translation systems have significantly enhanced translation accuracy; however, even the best performing systems still generate hallucinations, severely impacting user trust. Detecting hallucinations in Machine Translation (MT) remains a critical challenge, particularly since existing methods excel with High-Resource Languages (HRLs) but exhibit substantial limitations when applied to Low-Resource Languages (LRLs). This paper evaluates hallucination detection approaches using Large Language Models (LLMs) and semantic similarity within massively multilingual embeddings. Our study spans 16 language directions, covering HRLs, LRLs, with diverse scripts. We find that the choice of model is essential for performance. On average, for HRLs, Llama3-70B outperforms the previous state of the art by as much as 0.16 MCC (Matthews Correlation Coefficient). However, for LRLs we observe that Claude Sonnet outperforms other LLMs on average by 0.03 MCC. The key takeaway from our study is that LLMs can achieve performance comparable or even better than previously proposed models, despite not being explicitly trained for any machine translation task. However, their advantage is less significant for LRLs.

arxiv情報

著者 Kenza Benkirane,Laura Gongas,Shahar Pelles,Naomi Fuchs,Joshua Darmon,Pontus Stenetorp,David Ifeoluwa Adelani,Eduardo Sanchez
発行日 2024-07-23 13:40:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク