要約
Vision-Language Models(VLMS)は、優れた高レベルの計画機能を実証し、細心の人間レベルの報酬設計を必要とせずにビデオデモンストレーションから移動スキルを学習できるようにします。
ただし、不適切なフレームサンプリング方法と現在の方法の低いトレーニング効率は、重要なボトルネックのままであり、実質的な計算オーバーヘッドと時間コストをもたらします。
この制限に対処するために、シングルビデオ(MA-ROESL)からの効率的なロボットスキル学習のためのモーション認識の迅速な報酬最適化を提案します。
Ma-Roeslは、モーションアウェアフレーム選択方法を統合して、VLM生成された報酬機能の品質を暗黙的に向上させます。
さらに、迅速な報酬の最適化を介してトレーニング効率を向上させ、オンラインの微調整を通じて最終ポリシーを導き出すハイブリッド3フェーズトレーニングパイプラインを採用しています。
実験結果は、Ma-Roeslがトレーニング効率を大幅に向上させ、シミュレートされた設定と現実世界の両方の設定の両方で移動スキルを忠実に再現し、それにより、ビデオデモンストレーションから効率的なロボット運動スキルを学習するための堅牢でスケーラブルなフレームワークとしての可能性を強調することを示しています。
要約(オリジナル)
Vision-language models (VLMs) have demonstrated excellent high-level planning capabilities, enabling locomotion skill learning from video demonstrations without the need for meticulous human-level reward design. However, the improper frame sampling method and low training efficiency of current methods remain a critical bottleneck, resulting in substantial computational overhead and time costs. To address this limitation, we propose Motion-aware Rapid Reward Optimization for Efficient Robot Skill Learning from Single Videos (MA-ROESL). MA-ROESL integrates a motion-aware frame selection method to implicitly enhance the quality of VLM-generated reward functions. It further employs a hybrid three-phase training pipeline that improves training efficiency via rapid reward optimization and derives the final policy through online fine-tuning. Experimental results demonstrate that MA-ROESL significantly enhances training efficiency while faithfully reproducing locomotion skills in both simulated and real-world settings, thereby underscoring its potential as a robust and scalable framework for efficient robot locomotion skill learning from video demonstrations.
arxiv情報
著者 | Xianghui Wang,Xinming Zhang,Yanjun Chen,Xiaoyu Shen,Wei Zhang |
発行日 | 2025-05-13 09:12:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google