要約
アクションフリーのビデオや言語の指示から学習することにより、長老操作タスクの報酬モデルを研究します。これは、視覚的インストラクション相関(VIC)の問題と呼ばれます。
クロスモダリティモデリングの最近の進歩により、視覚と言語の相関を通じて報酬モデリングの可能性が強調されています。
ただし、既存のVICメソッドは、サブステージの認識の欠如、タスクの複雑さのモデリングの難しさ、およびオブジェクト状態の推定が不十分であるため、長期式タスクの報酬を学習する際の課題に直面しています。
これらの課題に対処するために、長老操作タスクに効果的な報酬信号を提供できる新しい階層ヴィック報酬モデルであるVictorを紹介します。
Victorは、新しいステージ検出器とモーション進行評価者を通じてさまざまなレベルでのタスクの進捗を正確に評価し、タスクを効果的に学習するエージェントに洞察に富んだガイダンスを提供します。
ビクターの有効性を検証するために、シミュレートされた環境と実世界の両方の環境で広範な実験を実施しました。
結果は、ビクターが既存の最高のVICメソッドを上回り、長老タスクの成功率を43%改善したことを示唆しています。
要約(オリジナル)
We study reward models for long-horizon manipulation tasks by learning from action-free videos and language instructions, which we term the visual-instruction correlation (VIC) problem. Recent advancements in cross-modality modeling have highlighted the potential of reward modeling through visual and language correlations. However, existing VIC methods face challenges in learning rewards for long-horizon tasks due to their lack of sub-stage awareness, difficulty in modeling task complexities, and inadequate object state estimation. To address these challenges, we introduce VICtoR, a novel hierarchical VIC reward model capable of providing effective reward signals for long-horizon manipulation tasks. VICtoR precisely assesses task progress at various levels through a novel stage detector and motion progress evaluator, offering insightful guidance for agents learning the task effectively. To validate the effectiveness of VICtoR, we conducted extensive experiments in both simulated and real-world environments. The results suggest that VICtoR outperformed the best existing VIC methods, achieving a 43% improvement in success rates for long-horizon tasks.
arxiv情報
著者 | Kuo-Han Hung,Pang-Chi Lo,Jia-Fong Yeh,Han-Yuan Hsu,Yi-Ting Chen,Winston H. Hsu |
発行日 | 2025-02-20 04:45:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google