要約
大規模な言語モデル(LLM)には多言語機能があり、さまざまな言語でタスクを解決できます。
ただし、現在のLLMは、入力言語や出力言語に関係なく、英語に最も近い表現スペースで重要な決定を下すことを示しています。
フランス語、ドイツ語、オランダ語、およびマンダリンの文章のロジットレンズを使用した内部表現を調査すると、LLMは最初に、ターゲット言語に変換する前に、意味的にロードされた単語の英語に近い表現を放出することを示します。
さらに、これらのLLMのアクティベーションステアリングが、ステアリングベクトルが入力と出力の言語ではなく英語で計算される場合、より効果的であることを示します。
これは、多言語LLMがシステムユーザーに透明ではない方法で英語で大きく形作られる表現で重要な推論ステップを実行することを示唆しています。
要約(オリジナル)
Large language models (LLMs) have multilingual capabilities and can solve tasks across various languages. However, we show that current LLMs make key decisions in a representation space closest to English, regardless of their input and output languages. Exploring the internal representations with a logit lens for sentences in French, German, Dutch, and Mandarin, we show that the LLM first emits representations close to English for semantically-loaded words before translating them into the target language. We further show that activation steering in these LLMs is more effective when the steering vectors are computed in English rather than in the language of the inputs and outputs. This suggests that multilingual LLMs perform key reasoning steps in a representation that is heavily shaped by English in a way that is not transparent to system users.
arxiv情報
著者 | Lisa Schut,Yarin Gal,Sebastian Farquhar |
発行日 | 2025-02-21 17:19:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google