要約
Vision-Language-action(VLA)モデルは、実際のロボット操作において大きな可能性を示しています。
ただし、特に接触リッチ環境では、限られた一貫性のないデモンストレーションにより、堅牢なパフォーマンスを達成するために、監視された学習闘争を通じてこれらのモデルを微調整します。
この論文では、これらの課題に対処するために、統一された一貫性ベースのトレーニング目標を備えたオフラインおよびオンラインの微調整で構成されるConrftという名前のVLAモデルの強化された微調整アプローチを提案します。
オフライン段階では、私たちの方法が動作のクローニングとQラーニングを統合して、小さなデモのセットからポリシーを効果的に抽出し、価値の推定を安定させます。
オンライン段階では、VLAモデルは、安全な探査と高いサンプル効率を確保するための人間の介入により、一貫性ポリシーを介してさらに微調整されています。
8つの多様な現実世界の操作タスクに関するアプローチを評価します。
オンライン微調整から45〜90分以内に平均成功率が96.3%であり、成功率が144%改善され、エピソードの長さが1.9倍短いことで、以前の監視方法を上回ります。
この作業は、実世界のロボットアプリケーションのVLAモデルのパフォーマンスを向上させるために、強化学習を統合する可能性を強調しています。
ビデオとコードは、プロジェクトWebサイトhttps://cccedric.github.io/conrft/で入手できます。
要約(オリジナル)
Vision-Language-Action (VLA) models have shown substantial potential in real-world robotic manipulation. However, fine-tuning these models through supervised learning struggles to achieve robust performance due to limited, inconsistent demonstrations, especially in contact-rich environments. In this paper, we propose a reinforced fine-tuning approach for VLA models, named ConRFT, which consists of offline and online fine-tuning with a unified consistency-based training objective, to address these challenges. In the offline stage, our method integrates behavior cloning and Q-learning to effectively extract policy from a small set of demonstrations and stabilize value estimating. In the online stage, the VLA model is further fine-tuned via consistency policy, with human interventions to ensure safe exploration and high sample efficiency. We evaluate our approach on eight diverse real-world manipulation tasks. It achieves an average success rate of 96.3% within 45-90 minutes of online fine-tuning, outperforming prior supervised methods with a 144% improvement in success rate and 1.9x shorter episode length. This work highlights the potential of integrating reinforcement learning to enhance the performance of VLA models for real-world robotic applications. Videos and code are available at our project website https://cccedric.github.io/conrft/.
arxiv情報
著者 | Yuhui Chen,Shuai Tian,Shugao Liu,Yingting Zhou,Haoran Li,Dongbin Zhao |
発行日 | 2025-04-14 04:53:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google