要約
大規模言語モデル (LLM) は、機械翻訳 (MT) で最先端のパフォーマンスを達成し、数ショットの例を通じてコンテキスト内の学習を活用する能力を実証しました。
ただし、LLM が入力コンテキストのさまざまな部分を使用するメカニズムは、ほとんど解明されていないままです。
この研究では、MT におけるコンテキスト利用の包括的な分析を提供し、LLM が翻訳を生成する際に、少数ショットの例やソース テキストなどのさまざまなコンテキスト部分をどのように使用するかを研究します。
いくつかの重要な発見を強調します。(1) 翻訳の方向に関係なく、数ショットの例のソース部分は、対応するターゲットよりも多く寄与しているようです。
(2) 並列データを使用して LLM を微調整すると、さまざまなコンテキスト部分の寄与パターンが変更されます。
(3) 位置的な偏りがあり、初期の数ショットの例の方が翻訳されたシーケンスへの寄与が高くなります。
最後に、異常なコンテキストの寄与を検査すると、幻覚などの病理学的翻訳を発見できる可能性があることを示します。
私たちの調査結果は、標準的なエンコーダ/デコーダ MT モデルで知られているものを超える、LLM ベースの MT の内部動作に光を当てました。
要約(オリジナル)
Large language models (LLMs) have achieved state-of-the-art performance in machine translation (MT) and demonstrated the ability to leverage in-context learning through few-shot examples. However, the mechanisms by which LLMs use different parts of the input context remain largely unexplored. In this work, we provide a comprehensive analysis of context utilization in MT, studying how LLMs use various context parts, such as few-shot examples and the source text, when generating translations. We highlight several key findings: (1) the source part of few-shot examples appears to contribute more than its corresponding targets, irrespective of translation direction; (2) finetuning LLMs with parallel data alters the contribution patterns of different context parts; and (3) there is a positional bias where earlier few-shot examples have higher contributions to the translated sequence. Finally, we demonstrate that inspecting anomalous context contributions can potentially uncover pathological translations, such as hallucinations. Our findings shed light on the internal workings of LLM-based MT which go beyond those known for standard encoder-decoder MT models.
arxiv情報
著者 | Emmanouil Zaranis,Nuno M. Guerreiro,André F. T. Martins |
発行日 | 2024-10-21 17:51:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google