Online Decision MetaMorphFormer: A Casual Transformer-Based Reinforcement Learning Framework of Universal Embodied Intelligence

要約

モーションコントロール分野における対話型人工知能は、特に普遍的な知識が複数のタスクや普遍的な環境に適応できる場合に興味深いトピックです。
トランスフォーマーを活用した強化学習 (RL) の分野での取り組みが増えているにもかかわらず、そのほとんどはオフライン トレーニング パイプラインによって制限されている可能性があり、探索と一般化の能力が妨げられています。
この制限に対処するために、統一されたモデル アーキテクチャを通じて自己認識、環境認識、行動計画を達成することを目的とした Online Decision MetaMorphFormer (ODM) のフレームワークを提案します。
ODM エージェントは、認知心理学と行動心理学によって動機付けられ、他者から学び、世界を認識し、自身の経験に基づいて実践することができます。
ODM は、さまざまな環境に配置され、大規模な事前トレーニング済みデータセットを使用してさまざまな種類のタスクでトレーニングされた、多関節ボディを持つ任意のエージェントにも適用できます。
事前トレーニングされたデータセットを使用することで、ODM は目的のタスクを実行するために必要な知識を迅速にウォームアップして学習できる一方で、ターゲット環境は普遍的なポリシーを強化し続けます。
ODM のパフォーマンスと一般化能力を検証するために、広範なオンライン実験と少数ショットおよびゼロショット環境テストが使用されます。
私たちの研究結果は、身体性および認知分野における一般的な人工知能の研究に貢献します。
コード、結果、ビデオの例は、Web サイト \url{https://rlodm.github.io/odm/} にあります。

要約(オリジナル)

Interactive artificial intelligence in the motion control field is an interesting topic, especially when universal knowledge is adaptive to multiple tasks and universal environments. Despite there being increasing efforts in the field of Reinforcement Learning (RL) with the aid of transformers, most of them might be limited by the offline training pipeline, which prohibits exploration and generalization abilities. To address this limitation, we propose the framework of Online Decision MetaMorphFormer (ODM) which aims to achieve self-awareness, environment recognition, and action planning through a unified model architecture. Motivated by cognitive and behavioral psychology, an ODM agent is able to learn from others, recognize the world, and practice itself based on its own experience. ODM can also be applied to any arbitrary agent with a multi-joint body, located in different environments, and trained with different types of tasks using large-scale pre-trained datasets. Through the use of pre-trained datasets, ODM can quickly warm up and learn the necessary knowledge to perform the desired task, while the target environment continues to reinforce the universal policy. Extensive online experiments as well as few-shot and zero-shot environmental tests are used to verify ODM’s performance and generalization ability. The results of our study contribute to the study of general artificial intelligence in embodied and cognitive fields. Code, results, and video examples can be found on the website \url{https://rlodm.github.io/odm/}.

arxiv情報

著者 Luo Ji,Runji Lin
発行日 2024-09-11 15:22:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク