Enhancing Robotic Manipulation with AI Feedback from Multimodal Large Language Models

要約

最近、大規模言語モデル (LLM) を活用して意思決定プロセスを強化することに大きな注目が集まっています。
ただし、LLM によって生成された自然言語テキスト命令と、実行に必要なベクトル化された操作を調整することは大きな課題であり、多くの場合、タスク固有の詳細が必要になります。
このようなタスク固有の粒度の必要性を回避するために、嗜好ベースのポリシー学習アプローチにヒントを得て、画像入力のみから自動化された嗜好フィードバックを提供して意思決定をガイドするマルチモーダル LLM の利用を調査します。
この研究では、CriticGPT と呼ばれるマルチモーダル LLM をトレーニングします。この LLM は、ロボット操作タスクの軌道ビデオを理解でき、分析と好みのフィードバックを提供する批評家として機能します。
続いて、CriticGPT によって生成された嗜好ラベルの有効性を報酬モデリングの観点から検証します。
アルゴリズムの優先精度の実験的評価により、新しいタスクに対するアルゴリズムの効果的な一般化能力が実証されます。
さらに、メタワールド タスクのパフォーマンスは、CriticGPT の報酬モデルがポリシー学習を効率的に導き、最先端の事前トレーニング済み表現モデルに基づく報酬を上回っていることを明らかにしています。

要約(オリジナル)

Recently, there has been considerable attention towards leveraging large language models (LLMs) to enhance decision-making processes. However, aligning the natural language text instructions generated by LLMs with the vectorized operations required for execution presents a significant challenge, often necessitating task-specific details. To circumvent the need for such task-specific granularity, inspired by preference-based policy learning approaches, we investigate the utilization of multimodal LLMs to provide automated preference feedback solely from image inputs to guide decision-making. In this study, we train a multimodal LLM, termed CriticGPT, capable of understanding trajectory videos in robot manipulation tasks, serving as a critic to offer analysis and preference feedback. Subsequently, we validate the effectiveness of preference labels generated by CriticGPT from a reward modeling perspective. Experimental evaluation of the algorithm’s preference accuracy demonstrates its effective generalization ability to new tasks. Furthermore, performance on Meta-World tasks reveals that CriticGPT’s reward model efficiently guides policy learning, surpassing rewards based on state-of-the-art pre-trained representation models.

arxiv情報

著者 Jinyi Liu,Yifu Yuan,Jianye Hao,Fei Ni,Lingzhi Fu,Yibin Chen,Yan Zheng
発行日 2024-02-22 03:14:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク