Thinking agents for zero-shot generalization to qualitatively novel tasks

要約

知的な生物は、生涯または進化のいずれかで、これまでに遭遇したことのない真の新しい問題を解決することができます。
この能力の重要な要素は、環境の相互作用がなくても、新しい問題に対する可能な解決策を計画および評価するために、「考え」、つまり、オブジェクト、概念、行動を精神的に操作する能力です。
(メンタルシミュレーションによる)溶媒符のゼロショットでありながら、本当に質的に斬新な問題を生成するために、環境の組み合わせの性質を使用します。環境の要素の特定の組み合わせを差し控えながらエージェントを訓練します。
したがって、この組み合わせに基づいた新しいテストタスクは、トレーニング中にエージェントが個々の要素(およびそのペアワイズインタラクション)にさらされているため、精神的にシミュレートできるが、真に斬新であることが保証されています。
エージェントの前提と思考後のパフォーマンスの違いに基づいてタスクを選択することにより、メンタルシミュレーション能力を使用するために世界モデルを備えたエージェントを訓練する方法を提案します。
小説「Wewheldの問題」でテストすると、結果のエージェントは代替シナリオをシミュレートし、結果の情報を使用して実際の環境でその動作を導き、単一の実際の環境試験(ゼロショット)で新しいタスクを解決しました。

要約(オリジナル)

Intelligent organisms can solve truly novel problems which they have never encountered before, either in their lifetime or their evolution. An important component of this capacity is the ability to “think”, that is, to mentally manipulate objects, concepts and behaviors in order to plan and evaluate possible solutions to novel problems, even without environment interaction. To generate problems that are truly qualitatively novel, while still solvable zero-shot (by mental simulation), we use the combinatorial nature of environments: we train the agent while withholding a specific combination of the environment’s elements. The novel test task, based on this combination, is thus guaranteed to be truly novel, while still mentally simulable since the agent has been exposed to each individual element (and their pairwise interactions) during training. We propose a method to train agents endowed with world models to make use their mental simulation abilities, by selecting tasks based on the difference between the agent’s pre-thinking and post-thinking performance. When tested on the novel, withheld problem, the resulting agent successfully simulated alternative scenarios and used the resulting information to guide its behavior in the actual environment, solving the novel task in a single real-environment trial (zero-shot).

arxiv情報

著者 Thomas Miconi,Kevin McKee,Yicong Zheng,Jed McCaleb
発行日 2025-03-25 16:26:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE パーマリンク