Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models?

要約

大規模な言語モデル、特に多言語モデルは、さまざまな言語の母語話者に対応できるように設計され、主張され、期待されています。
これらのモデルの微調整と評価の現在の実践は、翻訳への依存度が高く、翻訳アーチファクトや欠陥が生じる可能性があるため、この意図と一致しない可能性があると仮説を立てています。
命令データの性質がモデルの出力に影響を与えるかどうかは不明のままです。
一方で、翻訳されたテストセットがそのようなニュアンスを捉えられるかどうかは依然として疑問です。
両方の段階で翻訳されたデータを使用するという実践が組み合わされることが多いため、このような不完全性は見落とされていた可能性があります。
この研究では、命令の調整および評価段階で制御されたネイティブ データまたは変換されたデータを使用し、モデルの結果を観察することで、これらの問題を調査します。
8 つのベース モデルと 8 つの異なるベンチマークでの実験により、ネイティブ ベンチマークまたは生成ベンチマークでは、特にモデルのパフォーマンスが高い場合にネイティブと変換された命令データの間に顕著な違いが見られるのに対し、他の種類のテスト セットでは顕著な違いが見られることが明らかになりました。
最後に、構造化タスクではあるが生成的タスクではないこのギャップを埋めるのに正則化が有益であることを示します。

要約(オリジナル)

Large language models, particularly multilingual ones, are designed, claimed, and expected to cater to native speakers of varied languages. We hypothesise that the current practices of fine-tuning and evaluating these models may mismatch this intention owing to a heavy reliance on translation, which can introduce translation artefacts and defects. It remains unknown whether the nature of the instruction data has an impact on the model output; on the other hand, it remains questionable whether translated test sets can capture such nuances. Due to the often coupled practices of using translated data in both stages, such imperfections could have been overlooked. This work investigates these issues by using controlled native or translated data during instruction tuning and evaluation stages and observing model results. Experiments on eight base models and eight different benchmarks reveal that native or generation benchmarks display a notable difference between native and translated instruction data especially when model performance is high, whereas other types of test sets cannot. Finally, we demonstrate that regularization is beneficial to bridging this gap on structured but not generative tasks.

arxiv情報

著者 Pinzhen Chen,Simon Yu,Zhicheng Guo,Barry Haddow
発行日 2024-06-18 17:43:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク