Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation

要約

大規模言語モデル (LLM) は、機械翻訳の評価タスクにおいて目覚ましい成果を上げていますが、提供されたデータを評価の実施にどのように利用するかについては知識にギャップが残っています。
この研究は、LLM の動作メカニズムをより深く理解することを最終目標として、LLM が翻訳を評価する際にソース情報と参考情報をどのように活用しているかを調査することを目的としています。
この目的を達成するために、さまざまな入力モードとモデル タイプにわたって制御された実験を設計し、粗粒度および粒度の細かいプロンプトの両方を使用して、ソース情報と参照情報の有用性を識別します。
驚くべきことに、参照情報は評価の精度を大幅に高める一方で、ソース情報は逆効果になる場合があり、LLM を使用して翻訳を評価する際に言語をまたぐ能力が欠如していることを示しています。
さらに、LLM の翻訳エラー検出に関するメタ評価を実施し、同様の現象を観察しました。
これらの発見は、LLM の言語を越えた機能を最大限に活用して機械翻訳評価タスクのパフォーマンスを向上させるという、LLM の潜在的な研究方向性も示唆しています。

要約(オリジナル)

Large Language Models (LLMs) have achieved remarkable results in the machine translation evaluation task, yet there remains a gap in knowledge regarding how they utilize the provided data to conduct evaluations. This study aims to explore how LLMs leverage source and reference information in evaluating translations, with the ultimate goal of better understanding the working mechanism of LLMs. To this end, we design the controlled experiments across various input modes and model types, and employ both coarse-grained and fine-grained prompts to discern the utility of source versus reference information. Surprisingly, we find that reference information significantly enhances the evaluation accuracy, while source information sometimes is counterproductive, indicating a lack of cross-lingual capability when using LLMs to evaluate translations. We further conduct a meta-evaluation for translation error detection of LLMs, observing a similar phenomenon. These findings also suggest a potential research direction for LLMs that fully exploits the cross-lingual capability of LLMs to achieve better performance in machine translation evaluation tasks.

arxiv情報

著者 Xu Huang,Zhirui Zhang,Xiang Geng,Yichao Du,Jiajun Chen,Shujian Huang
発行日 2024-01-12 13:23:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク