要約
連続観測ベクトルを連続アクションベクトルに直接マッピングすることにより、大規模な言語モデル(LLM)が具体化されたエージェントを制御できるようにする方法を提案します。
当初、LLMSは、エージェント、その環境、および意図した目標のテキストの説明に基づいて制御戦略を生成します。
この戦略は、評価中に収集されたパフォーマンスフィードバックと感覚運動データを使用して、LLMSが現在の戦略を改善するように繰り返し促される学習プロセスを通じて繰り返し洗練されます。
この方法は、Gymnasium Libraryからの古典的な制御タスクと、Mujocoライブラリの倒立振り子タスクで検証されています。
ほとんどの場合、エージェントが環境と相互作用するときに収集されたサブシンボリック感覚運動データと推論を通じて導出された象徴的な知識を統合することにより、最適または高性能のソリューションを正常に識別します。
要約(オリジナル)
We propose a method that enables large language models (LLMs) to control embodied agents by directly mapping continuous observation vectors to continuous action vectors. Initially, the LLMs generate a control strategy based on a textual description of the agent, its environment, and the intended goal. This strategy is then iteratively refined through a learning process in which the LLMs are repeatedly prompted to improve the current strategy, using performance feedback and sensory-motor data collected during its evaluation. The method is validated on classic control tasks from the Gymnasium library and the inverted pendulum task from the MuJoCo library. In most cases, it successfully identifies optimal or high-performing solutions by integrating symbolic knowledge derived through reasoning with sub-symbolic sensory-motor data gathered as the agent interacts with its environment.
arxiv情報
| 著者 | Jônata Tyska Carvalho,Stefano Nolfi |
| 発行日 | 2025-06-05 10:38:28+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google