Interpreting Emergent Planning in Model-Free Reinforcement Learning

要約

モデルのない強化学習エージェントが計画を学ぶことができるという最初の機構的証拠を提示します。
これは、概念ベースの解釈性に基づいて、計画を勉強するために一般的に使用されるベンチマークであるソコバンのモデルのないエージェントに方法論を適用することによって達成されます。
具体的には、Guez et al。
(2019)、学んだ概念表現を使用して、環境に対するアクションの長期的な影響を予測する計画とアクションの選択に影響を与える計画を内部的に策定します。
私たちの方法論には、(1)計画関連の概念の調査、(2)エージェントの表現内の計画形成の調査、および(3)発見された計画(エージェントの表現)が介入を通じてエージェントの行動に因果的影響があることを検証することが含まれます。
また、これらの計画の出現は、計画のようなプロパティの出現、つまり追加のテスト時間計算から利益を得る能力と一致していることを示しています。
最後に、エージェントが学んだ計画アルゴリズムの定性分析を実行し、並列化された双方向の検索に強い類似性を発見します。
私たちの調査結果は、エージェントの計画行動の根底にある内部メカニズムの理解を促進します。これは、RLを介したLLMSの緊急計画と推論能力の最近の傾向を考えると重要です

要約(オリジナル)

We present the first mechanistic evidence that model-free reinforcement learning agents can learn to plan. This is achieved by applying a methodology based on concept-based interpretability to a model-free agent in Sokoban — a commonly used benchmark for studying planning. Specifically, we demonstrate that DRC, a generic model-free agent introduced by Guez et al. (2019), uses learned concept representations to internally formulate plans that both predict the long-term effects of actions on the environment and influence action selection. Our methodology involves: (1) probing for planning-relevant concepts, (2) investigating plan formation within the agent’s representations, and (3) verifying that discovered plans (in the agent’s representations) have a causal effect on the agent’s behavior through interventions. We also show that the emergence of these plans coincides with the emergence of a planning-like property: the ability to benefit from additional test-time compute. Finally, we perform a qualitative analysis of the planning algorithm learned by the agent and discover a strong resemblance to parallelized bidirectional search. Our findings advance understanding of the internal mechanisms underlying planning behavior in agents, which is important given the recent trend of emergent planning and reasoning capabilities in LLMs through RL

arxiv情報

著者 Thomas Bush,Stephen Chung,Usman Anwar,Adrià Garriga-Alonso,David Krueger
発行日 2025-04-02 16:24:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク