Building Open-Ended Embodied Agent via Language-Policy Bidirectional Adaptation

要約

大規模言語モデル (LLM) と強化学習 (RL) を統合して身体化エージェントを構築することで、人間と AI のインタラクションに革命が起こり、研究者は言語命令を活用して、無制限のタスクの意思決定を計画できるようになりました。
しかし、既存の研究は、オープンエンド性の要件を満たすという課題に直面しています。
これらは通常、LLM/RL モデルを固定の相手に適応するようにトレーニングするため、新しいスキルの探索が制限され、人間と AI の相互作用の有効性が妨げられます。
この目的を達成するために、我々は、次の 2 つの段階で構成される共同トレーニング フレームワークである OpenPAL を紹介します。(1) 事前トレーニングされた LLM を微調整して人間の指示を計画の目標に変換し、目標条件付きトレーニングで意思決定のポリシーを作成します。
(2) LLM とポリシーを調整するための共同トレーニングにより、指導の無制限性を実現します。
私たちは、オープンエンド FPS ゲームである Contra を使用して実験を行い、OpenPAL でトレーニングされたエージェントが任意の命令を理解するだけでなく、効率的な実行を示すことを実証しました。
これらの結果は、OpenPAL が実際のシナリオでオープンエンドの身体化エージェントを構築できる可能性を秘めていることを示唆しています。

要約(オリジナル)

Building embodied agents on integrating Large Language Models (LLMs) and Reinforcement Learning (RL) have revolutionized human-AI interaction: researchers can now leverage language instructions to plan decision-making for open-ended tasks. However, existing research faces challenges in meeting the requirement of open-endedness. They typically either train LLM/RL models to adapt to a fixed counterpart, limiting exploration of novel skills and hindering the efficacy of human-AI interaction. To this end, we present OpenPAL, a co-training framework comprising two stages: (1) fine-tuning a pre-trained LLM to translate human instructions into goals for planning, and goal-conditioned training a policy for decision-making; (2) co-training to align the LLM and policy, achieving instruction open-endedness. We conducted experiments using Contra, an open-ended FPS game, demonstrating that an agent trained with OpenPAL not only comprehends arbitrary instructions but also exhibits efficient execution. These results suggest that OpenPAL holds the potential to construct open-ended embodied agents in practical scenarios.

arxiv情報

著者 Shaopeng Zhai,Jie Wang,Tianyi Zhang,Fuxian Huang,Qi Zhang,Ming Zhou,Jing Hou,Yu Qiao,Yu Liu
発行日 2024-02-06 16:30:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク