要約
Vision-Language-active(VLA)モデルは、模倣学習を通じて一般的なロボットの意思決定タスクに大きな可能性を示しています。
ただし、トレーニングデータのさまざまな品質は、これらのモデルのパフォーマンスを制約することがよくあります。
一方、オフライン強化学習(RL)は、混合品質のデータからの堅牢なポリシーモデルの学習に優れています。
この論文では、累積報酬を最大化するRL原則を統合する新しいエンドツーエンドVLAモデルである強化ロボットGPT(Reinbot)を紹介します。
Reinbotは、操作タスクのニュアンスをキャプチャする密なリターンを予測することにより、データの品質分布をより深く理解します。
高密度のリターン予測機能により、ロボットは、将来の利益を最大化する方向に向けた、より堅牢な意思決定アクションを生成することができます。
広範な実験では、ReinbotがCalvinの混合品質のデータセットで最先端のパフォーマンスを達成し、現実世界のタスクで優れた少数の学習と分散式の一般化機能を示すことが示されています。
要約(オリジナル)
Vision-Language-Action (VLA) models have shown great potential in general robotic decision-making tasks via imitation learning. However, the variable quality of training data often constrains the performance of these models. On the other hand, offline Reinforcement Learning (RL) excels at learning robust policy models from mixed-quality data. In this paper, we introduce Reinforced robot GPT (ReinboT), a novel end-to-end VLA model that integrates the RL principle of maximizing cumulative reward. ReinboT achieves a deeper understanding of the data quality distribution by predicting dense returns that capture the nuances of manipulation tasks. The dense return prediction capability enables the robot to generate more robust decision-making actions, oriented towards maximizing future benefits. Extensive experiments show that ReinboT achieves state-of-the-art performance on the CALVIN mixed-quality dataset and exhibits superior few-shot learning and out-of-distribution generalization capabilities in real-world tasks.
arxiv情報
著者 | Hongyin Zhang,Zifeng Zhuang,Han Zhao,Pengxiang Ding,Hongchao Lu,Donglin Wang |
発行日 | 2025-05-12 09:48:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google