要約
NLPベンチマーク上の大規模な言語モデル(LLMS)の広範な成功には、LLMSが主にトレーニング前に見たものと同様のテキストを繁殖させる確率的オウムとして機能するという懸念が伴います。
しかし、それらのエラーの性質は何ですか、そしてこれらのエラーは規則性を示しますか?
この作業では、モデルが誤解を招く文脈的キューを予測に統合するという無関係なコンテキストの幻覚を調べます。
行動分析を通じて、これらのエラーは、クラスベースの(MIS)一般化と呼ばれる構造化されているが欠陥のあるメカニズムに起因することを示します。このメカニズムでは、モデルが抽象クラスのキューとクエリまたはコンテキストから抽出された機能を組み合わせて回答を導き出します。
さらに、39の事実上のリコール関係タイプにわたるLlama-3、Mistral、およびPythiaの機械的解釈性実験は、この動作がモデルの内部計算に反映されていることを明らかにしています。
影響が最終出力を決定します。
私たちの調査結果は、確率的オウムの議論についてより微妙な視点を提供します。フォームベースのトレーニングを通じて、LLMは、文脈的な手がかりに基づいて信頼できない方法で抽象化を活用する一般化を示すことができます – 私たちは確率的カメレオンと呼ぶものです。
要約(オリジナル)
The widespread success of large language models (LLMs) on NLP benchmarks has been accompanied by concerns that LLMs function primarily as stochastic parrots that reproduce texts similar to what they saw during pre-training, often erroneously. But what is the nature of their errors, and do these errors exhibit any regularities? In this work, we examine irrelevant context hallucinations, in which models integrate misleading contextual cues into their predictions. Through behavioral analysis, we show that these errors result from a structured yet flawed mechanism that we term class-based (mis)generalization, in which models combine abstract class cues with features extracted from the query or context to derive answers. Furthermore, mechanistic interpretability experiments on Llama-3, Mistral, and Pythia across 39 factual recall relation types reveal that this behavior is reflected in the model’s internal computations: (i) abstract class representations are constructed in lower layers before being refined into specific answers in higher layers, (ii) feature selection is governed by two competing circuits — one prioritizing direct query-based reasoning, the other incorporating contextual cues — whose relative influences determine the final output. Our findings provide a more nuanced perspective on the stochastic parrot argument: through form-based training, LLMs can exhibit generalization leveraging abstractions, albeit in unreliable ways based on contextual cues — what we term stochastic chameleons.
arxiv情報
著者 | Ziling Cheng,Meng Cao,Marc-Antoine Rondeau,Jackie Chi Kit Cheung |
発行日 | 2025-05-28 17:47:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google