Finite State Automata Inside Transformers with Chain-of-Thought: A Mechanistic Study on State Tracking

要約

チェーンオブ思考(COT)は、幅広いタスクにわたって大規模な言語モデル(LLMS)のパフォーマンスを大幅に向上させ、以前の研究では、COTが理論的に表現力を高めることができることが示されています。
ただし、トランス+COTが学習できるアルゴリズムの機構的理解は限られています。
この作業では、(1)トランス+COTとそのバリアントの状態追跡能力を評価し、COTの有効性を確認します。
(2)次に、世界の状態の追跡を担当するモデルコンポーネントのサブセットである回路を特定し、後層MLPニューロンが重要な役割を果たしていることを発見します。
圧縮と区別の2つのメトリックを提案し、各状態のニューロンセットがほぼ100%の精度を達成し、モデル内に埋め込まれた暗黙の有限状態オートマトン(FSA)の証拠を提供することを示します。
(3)さらに、3つの現実的な設定を調査します。中間ステップのスキップ、データノイズの導入、およびテストの長さの一般化です。
私たちの結果は、Transformer+CoTが堅牢なアルゴリズム(FSA)を学習し、挑戦的なシナリオでの回復力を強調していることを示しています。

要約(オリジナル)

Chain-of-Thought (CoT) significantly enhances the performance of large language models (LLMs) across a wide range of tasks, and prior research shows that CoT can theoretically increase expressiveness. However, there is limited mechanistic understanding of the algorithms that Transformer+CoT can learn. In this work, we (1) evaluate the state tracking capabilities of Transformer+CoT and its variants, confirming the effectiveness of CoT. (2) Next, we identify the circuit, a subset of model components, responsible for tracking the world state, finding that late-layer MLP neurons play a key role. We propose two metrics, compression and distinction, and show that the neuron sets for each state achieve nearly 100% accuracy, providing evidence of an implicit finite state automaton (FSA) embedded within the model. (3) Additionally, we explore three realistic settings: skipping intermediate steps, introducing data noise, and testing length generalization. Our results demonstrate that Transformer+CoT learns robust algorithms (FSA), highlighting its resilience in challenging scenarios.

arxiv情報

著者 Yifan Zhang,Wenyu Du,Dongming Jin,Jie Fu,Zhi Jin
発行日 2025-02-27 14:24:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Finite State Automata Inside Transformers with Chain-of-Thought: A Mechanistic Study on State Tracking はコメントを受け付けていません

Educator Attention: How computational tools can systematically identify the distribution of a key resource for students

要約

教育者の注意は学生の成功にとって重要ですが、教育者が学生に注意を分配する方法は、データと方法論的な制約のためにあまり理解されていません。
この研究では、教育者の注意パターンの最初の大規模な計算分析を提示し、詳細な学生の人口統計および学業成績データにリンクされた仮想グループの個別指導セッションから100万人以上の教育者の発言を活用しています。
自然言語処理技術を使用して、教育者の注意の受信者と性質を体系的に調べます。
私たちの調査結果は、教育者がより低い学生により多くの注意を向けることが多いことを明らかにしています。
ただし、特に性別による人口統計学的方向に格差は現れます。
少女たちは、グループ内の学生がより低い学生であっても、男の子とペアになると、あまり注意を払う傾向があります。
混合性のペアの低い女性の生徒は、より高い達成する男性の仲間よりもはるかに少ない注意を払うことができますが、より低い男性学生は、より高い達成する女性の仲間よりもかなり多くの注目を集めます。
また、人種と英語の学習者(EL)のステータスによるいくつかの違いがあります。低い黒人学生は、他の黒人学生とペアになった場合にのみ追加の注意を払っていますが、黒人以外のピアとペアになった場合ではありません。
対照的に、より高い達成エルの学生は、より低いエルピアよりも不均衡に注目を集めています。
この作業は、大規模な相互作用データと計算方法が、教育実践における微妙で有意義な格差を明らかにし、より公平で効果的な教育戦略を通知する経験的洞察を提供する方法を強調しています。

要約(オリジナル)

Educator attention is critical for student success, yet how educators distribute their attention across students remains poorly understood due to data and methodological constraints. This study presents the first large-scale computational analysis of educator attention patterns, leveraging over 1 million educator utterances from virtual group tutoring sessions linked to detailed student demographic and academic achievement data. Using natural language processing techniques, we systematically examine the recipient and nature of educator attention. Our findings reveal that educators often provide more attention to lower-achieving students. However, disparities emerge across demographic lines, particularly by gender. Girls tend to receive less attention when paired with boys, even when they are the lower achieving student in the group. Lower-achieving female students in mixed-gender pairs receive significantly less attention than their higher-achieving male peers, while lower-achieving male students receive significantly and substantially more attention than their higher-achieving female peers. We also find some differences by race and English learner (EL) status, with low-achieving Black students receiving additional attention only when paired with another Black student but not when paired with a non-Black peer. In contrast, higher-achieving EL students receive disproportionately more attention than their lower-achieving EL peers. This work highlights how large-scale interaction data and computational methods can uncover subtle but meaningful disparities in teaching practices, providing empirical insights to inform more equitable and effective educational strategies.

arxiv情報

著者 Qingyang Zhang,Rose E. Wang,Ana T. Ribeiro,Dora Demszky,Susanna Loeb
発行日 2025-02-27 14:30:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Educator Attention: How computational tools can systematically identify the distribution of a key resource for students はコメントを受け付けていません

Telephone Surveys Meet Conversational AI: Evaluating a LLM-Based Telephone Survey System at Scale

要約

電話調査は依然として洞察を収集するための貴重なツールですが、通常、人間のインタビュアーのトレーニングと調整にかなりのリソースが必要です。
この作業では、テキストへの語り方(TTS)、大規模な言語モデル(LLM)、およびスピーチツーテキスト(STT)を統合するAI駆動型の電話調査システムが、規模の人間主導のインタビューの汎用性を模倣しています。
米国でのパイロット研究(n = 75)とペルーでの大規模な展開(n = 2,739)でシステムをテストし、Webベースのリンクを介して参加者を招待し、直接電話で連絡しました。
AIエージェントは、オープンエンドおよびクローズドエンドの質問を成功裏に管理し、基本的な明確化を処理し、動的にナビゲートした分岐ロジックを使用して、インタビュアーの募集やトレーニングなしで高速な大規模な調査展開を可能にしました。
私たちの調査結果は、AIシステムの定性的深さの調査は人間のインタビュアーよりも制限されていたが、全体的なデータ品質が構造化されたアイテムの人間主導の基準に近づいていることを示しています。
この研究は、現実世界の調査の文脈におけるLLMベースの電話インタビュアーの最初の成功した大規模な展開の1つを表しています。
AIを搭載した電話調査システムは、市場調査、社会科学、世論全体にわたって収集するスケーラブルで一貫したデータを拡大する可能性があり、したがって、研究のための適切なデータ品質を維持しながら運用効率を改善します。

要約(オリジナル)

Telephone surveys remain a valuable tool for gathering insights but typically require substantial resources in training and coordinating human interviewers. This work presents an AI-driven telephone survey system integrating text-to-speech (TTS), a large language model (LLM), and speech-to-text (STT) that mimics the versatility of human-led interviews on scale. We tested the system across two populations, a pilot study in the United States (n = 75) and a large-scale deployment in Peru (n = 2,739), inviting participants via web-based links and contacting them via direct phone calls. The AI agent successfully administered open-ended and closed-ended questions, handled basic clarifications, and dynamically navigated branching logic, allowing fast large-scale survey deployment without interviewer recruitment or training. Our findings demonstrate that while the AI system’s probing for qualitative depth was more limited than human interviewers, overall data quality approached human-led standards for structured items. This study represents one of the first successful large-scale deployments of an LLM-based telephone interviewer in a real-world survey context. The AI-powered telephone survey system has the potential for expanding scalable, consistent data collecting across market research, social science, and public opinion studies, thus improving operational efficiency while maintaining appropriate data quality for research.

arxiv情報

著者 Max M. Lang,Sol Eskenazi
発行日 2025-02-27 14:31:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | Telephone Surveys Meet Conversational AI: Evaluating a LLM-Based Telephone Survey System at Scale はコメントを受け付けていません

LongAttn: Selecting Long-context Training Data via Token-level Attention

要約

大規模な言語モデル(LLMS)の開発により、長いコンテキストの処理において大幅な進歩が必要になっています。
長いコンテキスト機能を強化するには、長距離依存関係を備えた高品質のトレーニングデータを構築することが重要です。
長いコンテキストデータを選択する既存の方法は、多くの場合、文レベルの分析に依存しています。これは、パフォーマンスと効率の両方で大幅に最適化できます。
この論文では、データの長距離依存関係を測定するためにLLMSの自己関節メカニズムを活用する新しいトークンレベルのフレームワークであるLongattnを提案します。
トークンレベルの依存関係強度と分布トークンスコアの均一性を計算することにより、Longattnは長距離依存関係を効果的に定量化し、より正確で効率的なデータ選択を可能にします。
オープンソースの長いコンテキストデータセット(ARXIV、ブック、コード)からLongABC-32Kをフィルタリングします。
包括的な実験を通じて、Longattnはその優れた効果、スケーラビリティ、および効率性を実証しました。
長いコンテキストデータの将来の研究を容易にするために、コードと高品質の長いコンテストトレーニングデータLongABC-32Kをリリースしました。

要約(オリジナル)

With the development of large language models (LLMs), there has been an increasing need for significant advancements in handling long contexts. To enhance long-context capabilities, constructing high-quality training data with long-range dependencies is crucial. Existing methods to select long-context data often rely on sentence-level analysis, which can be greatly optimized in both performance and efficiency. In this paper, we propose a novel token-level framework, LongAttn, which leverages the self-attention mechanism of LLMs to measure the long-range dependencies for the data. By calculating token-level dependency strength and distribution uniformity of token scores, LongAttn effectively quantifies long-range dependencies, enabling more accurate and efficient data selection. We filter LongABC-32K from open-source long-context datasets (ArXiv, Book, and Code). Through our comprehensive experiments, LongAttn has demonstrated its excellent effectiveness, scalability, and efficiency. To facilitate future research in long-context data, we released our code and the high-quality long-context training data LongABC-32K.

arxiv情報

著者 Longyun Wu,Dawei Zhu,Guangxiang Zhao,Zhuocheng Yu,Junfeng Ran,Xiangyu Wong,Lin Sun,Sujian Li
発行日 2025-02-27 14:50:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LongAttn: Selecting Long-context Training Data via Token-level Attention はコメントを受け付けていません

Similarity-Distance-Magnitude Universal Verification

要約

類似性(つまり、トレーニングに深さマッチを正しく予測する)を追加することにより、ニューラルネットワークの堅牢性の問題を解決します。
結果のSDM活性化関数は、相対認識(還元可能な)予測不確実性の強い信号を提供します。
この新しい動作を使用して、出力をヒューマン解釈可能な要約統計にマッピングするという補完的なHCIの問題にさらに対処し、保有キャリブレーションセットの関連するパーティションに対処します。
予測条件の不確実性の推定値は、最終層SDM活性化関数の出力のクラス条件付き経験的CDFを介した条例的な学習された変換を介して得られます。
意思決定および本質的なモデルチェックとして、この校正化された出力の高耐電力領域をクラス条件付きの領域固有のCDFにさらに分割することにより、クラス条件の精度の推定値が得られます。
SDMのキャリブレーションからの不確実性の推定値は、テスト時間分布のシフトおよび分散除外入力に対して非常に堅牢です。
効果的なサンプルサイズの認識を組み込みます。
学習およびデータ分割プロセスからの不確実性の推定値を提供します。
選択的な分類と、選択的なLLMの生成、ルーティング、および複数のモデルおよび検索にわたる構成に基づいて、予測的な不確実性に基づく追加のテスト時間計算に適しています。
最後に、SDMネットワーク、LLMSを、本質的な特性としての不確実性の検証と解釈可能性を備えたLLMを構築します。
これらの結果を実装するオープンソースソフトウェアを提供します。

要約(オリジナル)

We solve the neural network robustness problem by adding Similarity (i.e., correctly predicted depth-matches into training)-awareness and Distance-to-training-distribution-awareness to the existing output Magnitude (i.e., decision-boundary)-awareness of the softmax function. The resulting sdm activation function provides strong signals of the relative epistemic (reducible) predictive uncertainty. We use this novel behavior to further address the complementary HCI problem of mapping the output to human-interpretable summary statistics over relevant partitions of a held-out calibration set. Estimates of prediction-conditional uncertainty are obtained via a parsimonious learned transform over the class-conditional empirical CDFs of the output of a final-layer sdm activation function. For decision-making and as an intrinsic model check, estimates of class-conditional accuracy are obtained by further partitioning the high-probability regions of this calibrated output into class-conditional, region-specific CDFs. The uncertainty estimates from sdm calibration are remarkably robust to test-time distribution shifts and out-of-distribution inputs; incorporate awareness of the effective sample size; provide estimates of uncertainty from the learning and data splitting processes; and are well-suited for selective classification and conditional branching for additional test-time compute based on the predictive uncertainty, as for selective LLM generation, routing, and composition over multiple models and retrieval. Finally, we construct sdm networks, LLMs with uncertainty-aware verification and interpretability-by-exemplar as intrinsic properties. We provide open-source software implementing these results.

arxiv情報

著者 Allen Schmaltz
発行日 2025-02-27 15:05:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Similarity-Distance-Magnitude Universal Verification はコメントを受け付けていません

Re-evaluating Open-ended Evaluation of Large Language Models

要約

評価は、伝統的に特定のスキルの候補者のランキングに焦点を当ててきました。
大規模な言語モデル(LLM)などの現代のジェネラリストモデルは、このパラダイムを明らかに上回ります。
候補モデルがユーザーがサビされたプロンプトで比較されるオープンエンド評価システムが、一般的なソリューションとして浮上しています。
多くの利点にもかかわらず、現在のELOベースの評価システムは、冗長性に対する感受性のために、意図的または偶発的なデータのバイアスの影響を受けやすく、さらには強化できることを示しています。
この問題に対処するために、評価を3プレイヤーゲームとして提案し、冗長性の堅牢性を確保するために、新しいゲーム理論ソリューションの概念を導入します。
私たちの方法は直感的な評価につながり、LLM開発の競争的景観に関する洞察を提供することを示します。

要約(オリジナル)

Evaluation has traditionally focused on ranking candidates for a specific skill. Modern generalist models, such as Large Language Models (LLMs), decidedly outpace this paradigm. Open-ended evaluation systems, where candidate models are compared on user-submitted prompts, have emerged as a popular solution. Despite their many advantages, we show that the current Elo-based rating systems can be susceptible to and even reinforce biases in data, intentional or accidental, due to their sensitivity to redundancies. To address this issue, we propose evaluation as a 3-player game, and introduce novel game-theoretic solution concepts to ensure robustness to redundancy. We show that our method leads to intuitive ratings and provide insights into the competitive landscape of LLM development.

arxiv情報

著者 Siqi Liu,Ian Gemp,Luke Marris,Georgios Piliouras,Nicolas Heess,Marc Lanctot
発行日 2025-02-27 15:07:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.GT, cs.LG, stat.ML | Re-evaluating Open-ended Evaluation of Large Language Models はコメントを受け付けていません

Continual Memorization of Factoids in Language Models

要約

新しい知識が急速に蓄積されるにつれて、前提条件の知識を持つ言語モデル(LMS)はすぐに時代遅れになります。
LMSを更新するための一般的なアプローチは、新しい知識に直接微調整することです。
しかし、最近の研究では、暗記のための微調整は知識を保存するのに効果がないか、幻覚を悪化させる可能性があることが示されています。
この作業では、継続的な暗記と呼ばれる設定を紹介します。モデルは、後続のデータセットでの複数の微調整の微調整を通じて、ファクトイドのセットを記憶し、保持する必要があります。
私たちは、広範な実験を通じて忘却パターンを特徴づけ、特に第2段階でファクトイドを記憶する必要がある場合、LMSが忘却に広く苦しんでいることを示しました。
トレーニングのダイナミクスを変更することにより、忘却を軽減できると仮定します。(1)ファクトイドを学習する際の記憶プロセスを保護するか、(2)その後のトレーニング段階からの干渉を減らす。
興味深いことに、さまざまなトレーニング段階でcorporaを前からサンプリングしたランダムに生成されたワードシーケンスまたは一般的なデータをミキシングすると、リミックスの忘却が効果的に緩和されることがわかります:ランダムデータミキシングと一般的なデータの混合)。
Remixは、重度の忘却、パフォーマンスのあるリプレイ方法、その他の継続的な学習ベースラインからパフォーマンスを回復できます。
リミックスが学習プロセスにどのように影響するかを分析し、堅牢な暗記が明確なパターンに従うことを発見します。モデルは通常よりも初期のレイヤーにファクトイドを格納し、それらを保持するレイヤーを多様化し、学習したファクトイドを思い出し、操作します。

要約(オリジナル)

As new knowledge rapidly accumulates, language models (LMs) with pretrained knowledge quickly become obsolete. A common approach to updating LMs is fine-tuning them directly on new knowledge. However, recent studies have shown that fine-tuning for memorization may be ineffective in storing knowledge or may exacerbate hallucinations. In this work, we introduce a setting we call continual memorization, where a model must memorize and retain a set of factoids through multiple stages of fine-tuning on subsequent datasets. We characterized the forgetting patterns through extensive experiments and show that LMs widely suffer from forgetting, especially when needing to memorize factoids in the second stage. We posit that forgetting can be alleviated by modifying training dynamics: (1) protecting the memorization process when learning factoids or (2) reducing interference from subsequent training stages. Intriguingly, we find that mixing randomly generated word sequences or generic data sampled from pretraining corpora at different training stages effectively mitigates forgetting REMIX: Random and Generic Data Mixing). REMIX can recover performance from severe forgetting, outperforming replay methods and other continual learning baselines. We analyze how REMIX influences the learning process and find that robust memorization follows a distinct pattern: the model stores factoids in earlier layers than usual and diversifies the layers that retain them, which results in easier recall and manipulate of the learned factoids.

arxiv情報

著者 Howard Chen,Jiayi Geng,Adithya Bhaskar,Dan Friedman,Danqi Chen
発行日 2025-02-27 15:08:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Continual Memorization of Factoids in Language Models はコメントを受け付けていません

The Impact of Unstated Norms in Bias Analysis of Language Models

要約

大規模な言語モデル(LLM)のバイアスには、明白な差別から暗黙のステレオタイプまで、多くの形があります。
反事実的バイアス評価は、バイアスを定量化するために広く使用されているアプローチであり、多くの場合、グループメンバーシップを明示的に状態にするテンプレートベースのプローブに依存しています。
LLMによって実行されたタスクの結果が、グループメンバーシップの変更に不変であるかどうかを測定します。
この作業では、テンプレートベースのプローブが非現実的なバイアス測定につながる可能性があることがわかります。
たとえば、LLMSは、他のグループよりも高いレートでネガティブであると白い人種に関連付けられたテキストを誤ってキャストするように見えます。
これは、LLMS(たとえば、黒人大統領対大統領)およびバイアス測定に使用されるテンプレート(例:黒人対ホワイト大統領)のテキスト(例えば、黒人大統領対大統領)のテキスト(例:黒人対ホワイト大統領)の間の、一般的に述べられていない規範の間の不一致を介して人為的に発生すると仮定します。
調査結果は、反事実的バイアスの定量化における明示的な言及を通じて、さまざまなグループメンバーシップの潜在的な誤解を招く影響を強調しています。

要約(オリジナル)

Bias in large language models (LLMs) has many forms, from overt discrimination to implicit stereotypes. Counterfactual bias evaluation is a widely used approach to quantifying bias and often relies on template-based probes that explicitly state group membership. It measures whether the outcome of a task performed by an LLM is invariant to a change in group membership. In this work, we find that template-based probes can lead to unrealistic bias measurements. For example, LLMs appear to mistakenly cast text associated with White race as negative at higher rates than other groups. We hypothesize that this arises artificially via a mismatch between commonly unstated norms, in the form of markedness, in the pretraining text of LLMs (e.g., Black president vs. president) and templates used for bias measurement (e.g., Black president vs. White president). The findings highlight the potential misleading impact of varying group membership through explicit mention in counterfactual bias quantification.

arxiv情報

著者 Farnaz Kohankhaki,D. B. Emerson,Jacob-Junqi Tian,Laleh Seyyed-Kalantari,Faiza Khan Khattak
発行日 2025-02-27 15:11:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.CY, cs.LG | The Impact of Unstated Norms in Bias Analysis of Language Models はコメントを受け付けていません

An Extensive Evaluation of PDDL Capabilities in off-the-shelf LLMs

要約

最近の進歩において、大規模な言語モデル(LLMS)は、コード生成と考え方の推論に習熟しており、自動的な正式な計画タスクに取り組むための基礎を築きました。
この研究では、人工知能計画の重要な表現である計画ドメイン定義言語(PDDL)を理解して生成するLLMの可能性を評価します。
私たちは、商業とオープンソースの両方で、7つの主要なLLMファミリーにまたがる20の異なるモデルで広範な分析を実施しています。
当社の包括的な評価は、PDDLを使用して解析、生成、および推論のゼロショットLLM機能に光を当てています。
私たちの調査結果は、PDDLの処理において顕著な有効性を示しているモデルもあれば、微妙な計画知識を必要とするより複雑なシナリオに制限をもたらすモデルもあります。
これらの結果は、正式な計画タスクにおけるLLMの約束と現在の制限を強調し、アプリケーションに関する洞察を提供し、AI主導の計画パラダイムで将来の努力を導きます。

要約(オリジナル)

In recent advancements, large language models (LLMs) have exhibited proficiency in code generation and chain-of-thought reasoning, laying the groundwork for tackling automatic formal planning tasks. This study evaluates the potential of LLMs to understand and generate Planning Domain Definition Language (PDDL), an essential representation in artificial intelligence planning. We conduct an extensive analysis across 20 distinct models spanning 7 major LLM families, both commercial and open-source. Our comprehensive evaluation sheds light on the zero-shot LLM capabilities of parsing, generating, and reasoning with PDDL. Our findings indicate that while some models demonstrate notable effectiveness in handling PDDL, others pose limitations in more complex scenarios requiring nuanced planning knowledge. These results highlight the promise and current limitations of LLMs in formal planning tasks, offering insights into their application and guiding future efforts in AI-driven planning paradigms.

arxiv情報

著者 Kaustubh Vyas,Damien Graux,Sébastien Montella,Pavlos Vougiouklis,Ruofei Lai,Keshuang Li,Yang Ren,Jeff Z. Pan
発行日 2025-02-27 15:13:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | An Extensive Evaluation of PDDL Capabilities in off-the-shelf LLMs はコメントを受け付けていません

Improving Neuron-level Interpretability with White-box Language Models

要約

GPT-2のような自動再帰言語モデルのニューロンは、その活性化パターンを分析することで解釈できます。
最近の研究では、事後スパースコーディングの一形態である辞書学習などの手法が、このニューロンレベルの解釈可能性を高めることが示されています。
私たちの研究では、後付けとして適用するのではなく、モデルアーキテクチャにまばらなコーディングを直接埋め込むことにより、ニューラルネットワークの解釈性を根本的に改善するという目標に基づいています。
私たちの研究では、データ分布内でまばらで低次元構造をキャプチャするように明示的に設計されたコーディングレートトランス(CRATE)という名前のホワイトボックストランスのようなアーキテクチャを導入します。
当社の包括的な実験では、さまざまな評価メトリックにわたってニューロンレベルの解釈可能性の大幅な改善(最大103%の相対改善)を示しています。
詳細な調査により、この強化された解釈可能性は、モデルサイズに関係なく異なる層にわたって安定していることが確認されており、ニューラルネットワークの解釈可能性を高めるためのクレートの堅牢なパフォーマンスを強調しています。
さらなる分析により、Crateの解釈性の向上は、関連するトークンで一貫して明確にアクティブ化する能力を強化することから得られることが示されています。
これらの発見は、ニューロンレベルの解釈に優れているホワイトボックスの基礎モデルを作成するための有望な方向性を示しています。

要約(オリジナル)

Neurons in auto-regressive language models like GPT-2 can be interpreted by analyzing their activation patterns. Recent studies have shown that techniques such as dictionary learning, a form of post-hoc sparse coding, enhance this neuron-level interpretability. In our research, we are driven by the goal to fundamentally improve neural network interpretability by embedding sparse coding directly within the model architecture, rather than applying it as an afterthought. In our study, we introduce a white-box transformer-like architecture named Coding RAte TransformEr (CRATE), explicitly engineered to capture sparse, low-dimensional structures within data distributions. Our comprehensive experiments showcase significant improvements (up to 103% relative improvement) in neuron-level interpretability across a variety of evaluation metrics. Detailed investigations confirm that this enhanced interpretability is steady across different layers irrespective of the model size, underlining CRATE’s robust performance in enhancing neural network interpretability. Further analysis shows that CRATE’s increased interpretability comes from its enhanced ability to consistently and distinctively activate on relevant tokens. These findings point towards a promising direction for creating white-box foundation models that excel in neuron-level interpretation.

arxiv情報

著者 Hao Bai,Yi Ma
発行日 2025-02-27 15:22:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Improving Neuron-level Interpretability with White-box Language Models はコメントを受け付けていません