要約
最近の研究では、大規模な言語モデル(LLM)が暗黙的にマルチホップの推論を実行できることを示唆しています – 明示的に中間ステップを口頭で言語化することなく正解を生成する – しかし、基礎となるメカニズムはよく理解されたままです。
この論文では、制御された象徴的な環境でゼロから変圧器を訓練することによって、そのような暗黙の推論がどのように現れるかを研究します。
私たちの分析では、3段階の発達軌跡が明らかになりました:早期の暗記に続いて、分配内の一般化、そして最終的には相互分布の一般化です。
アトミックトリプルでのトレーニングは必要ではありませんが、学習を加速し、セカンドホップの一般化は特定の組成構造へのクエリレベルの露出に依存していることがわかります。
これらの動作を解釈するために、2つの診断ツールを紹介します。これは、意味的に再利用可能な中間表現を識別するクロスクロスセマンティックパッチングと、コサインベースの表現レンズを識別します。
このクラスタリング現象は、トレーニング全体で観察された行動ダイナミクスのコヒーレントな説明を提供し、表現構造を推論能力にリンクします。
これらの調査結果は、LLMSにおける暗黙のマルチホップ推論の解釈可能性に関する新しい洞察を提供し、複雑な推論プロセスが内部的に展開する方法を明確にし、そのようなモデルの透明性を高めるための経路を提供するのに役立ちます。
要約(オリジナル)
Recent work suggests that large language models (LLMs) can perform multi-hop reasoning implicitly — producing correct answers without explicitly verbalizing intermediate steps — but the underlying mechanisms remain poorly understood. In this paper, we study how such implicit reasoning emerges by training transformers from scratch in a controlled symbolic environment. Our analysis reveals a three-stage developmental trajectory: early memorization, followed by in-distribution generalization, and eventually cross-distribution generalization. We find that training with atomic triples is not necessary but accelerates learning, and that second-hop generalization relies on query-level exposure to specific compositional structures. To interpret these behaviors, we introduce two diagnostic tools: cross-query semantic patching, which identifies semantically reusable intermediate representations, and a cosine-based representational lens, which reveals that successful reasoning correlates with the cosine-base clustering in hidden space. This clustering phenomenon in turn provides a coherent explanation for the behavioral dynamics observed across training, linking representational structure to reasoning capability. These findings provide new insights into the interpretability of implicit multi-hop reasoning in LLMs, helping to clarify how complex reasoning processes unfold internally and offering pathways to enhance the transparency of such models.
arxiv情報
著者 | Jiaran Ye,Zijun Yao,Zhidian Huang,Liangming Pan,Jinxin Liu,Yushi Bai,Amy Xin,Liu Weichuan,Xiaoyin Che,Lei Hou,Juanzi Li |
発行日 | 2025-05-29 17:02:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google