Large Language Models Think Too Fast To Explore Effectively

要約

大規模な言語モデル(LLM)が多くの知的能力を備えています。
多数のベンチマークが知性を評価していますが、新しい情報を発見し、自然システムと人工システムの両方で新しい環境に適応するための重要な能力である、探求する能力には限られた注意が払われています。
特にオープンエンドのタスクで、LLMSが効果的に探索できる程度は不明のままです。
この研究では、LLMSがオープンエンドのタスク中に探査中に人間を上回ることができるかどうかを調査します。これは、エージェントが要素を組み合わせて新しいものを発見するパラダイムとして、Little Alchemy 2を使用して使用します。
結果は、不確実性とエンパワーメントのバランスをとる人間とは異なり、従来のLLMが主に不確実性駆動型戦略に依存しているO1モデルを除いて、人間と比較してほとんどのLLMSの低いパフォーマンスを示しています。
結果は、GPT-4Oなどの従来の推論に焦点を当てたLLMが、探索的パフォーマンスを制限して、かなり速く詳細ではない推論プロセスを示すことを示しています。
対照的に、Deepseek推論モデルは、より徹底的で人間のような探査戦略を反映して、組み合わせと過去の試験の繰り返し分析によって特徴付けられる長期にわたる反復思考プロセスを示しています。
スパースオートエンコーダー(SAE)を使用したモデルの表現分析により、不確実性と選択が初期の変圧器ブロックで表されていることが明らかになり、後でエンパワーメント値が処理され、LLMはあまりにも速く考え、早期決定を行い、効果的な調査を妨げました。
これらの発見は、LLM探査の限界に光を当て、適応性を改善するための方向を示唆しています。

要約(オリジナル)

Large Language Models (LLMs) have emerged with many intellectual capacities. While numerous benchmarks assess their intelligence, limited attention has been given to their ability to explore–an essential capacity for discovering new information and adapting to novel environments in both natural and artificial systems. The extent to which LLMs can effectively explore, particularly in open-ended tasks, remains unclear. This study investigates whether LLMs can surpass humans in exploration during an open-ended task, using Little Alchemy 2 as a paradigm, where agents combine elements to discover new ones. Results show most LLMs underperform compared to humans, except for the o1 model, with traditional LLMs relying primarily on uncertainty-driven strategies, unlike humans who balance uncertainty and empowerment. Results indicate that traditional reasoning-focused LLMs, such as GPT-4o, exhibit a significantly faster and less detailed reasoning process, limiting their exploratory performance. In contrast, the DeepSeek reasoning model demonstrates prolonged, iterative thought processes marked by repetitive analysis of combinations and past trials, reflecting a more thorough and human-like exploration strategy. Representational analysis of the models with Sparse Autoencoders (SAE) revealed that uncertainty and choices are represented at earlier transformer blocks, while empowerment values are processed later, causing LLMs to think too fast and make premature decisions, hindering effective exploration. These findings shed light on the limitations of LLM exploration and suggest directions for improving their adaptability.

arxiv情報

著者 Lan Pan,Hanbo Xie,Robert C. Wilson
発行日 2025-05-12 16:02:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-bio.NC パーマリンク