Robotic Policy Learning via Human-assisted Action Preference Optimization

要約

信頼性の高い復活したロボットシステムを確立することは、実際のアプリケーションを展開するために不可欠です。
Vision-Language-action(VLA)モデルは、このようなロボット展開の基礎モデルとして広く認識されていますが、専門家のデモンストレーションへの依存は、障害からの修正と学習の重要な機能を妨げます。
この制限を緩和するために、VLAモデルの優先アライメントを通じて展開障害を修正し、効果的な適応を促進するように設計されたHAPOという名前の人間支援のアクション選好最適化方法を導入します。
この方法は、人間の介入による信頼できる障害補正と相互作用の軌跡収集のための人間のロボットコラボレーションフレームワークから始まります。
これらのヒト介入軌道は、アクション選好最適化プロセス内でさらに採用され、VLAモデルを促進し、障害アクションの発生を緩和しながら修正アクションの適応を強化します。
具体的には、VLAモデルに好みの最適化を導入する際に不可逆的な相互作用とトークン確率の不一致の問題に対処するための適応的な再重み付けアルゴリズムを提案し、相互作用から導出されたバイナリの望ましい信号からのモデル学習を促進します。
これらのモジュールを組み合わせることで、人間支援のアクション選好最適化方法により、VLAモデルの障害からの信頼できる展開と効果的な学習が保証されます。
シミュレーションと現実世界のシナリオで行われた実験は、さまざまな操作タスクにわたるフレームワークの優れた一般化と堅牢性を証明しています。

要約(オリジナル)

Establishing a reliable and iteratively refined robotic system is essential for deploying real-world applications. While Vision-Language-Action (VLA) models are widely recognized as the foundation model for such robotic deployment, their dependence on expert demonstrations hinders the crucial capabilities of correction and learning from failures. To mitigate this limitation, we introduce a Human-assisted Action Preference Optimization method named HAPO, designed to correct deployment failures and foster effective adaptation through preference alignment for VLA models. This method begins with a human-robot collaboration framework for reliable failure correction and interaction trajectory collection through human intervention. These human-intervention trajectories are further employed within the action preference optimization process, facilitating VLA models to mitigate failure action occurrences while enhancing corrective action adaptation. Specifically, we propose an adaptive reweighting algorithm to address the issues of irreversible interactions and token probability mismatch when introducing preference optimization into VLA models, facilitating model learning from binary desirability signals derived from interactions. Through combining these modules, our human-assisted action preference optimization method ensures reliable deployment and effective learning from failure for VLA models. The experiments conducted in simulation and real-world scenarios prove superior generalization and robustness of our framework across a variety of manipulation tasks.

arxiv情報

著者 Wenke Xia,Yichu Yang,Hongtao Wu,Xiao Ma,Tao Kong,Di Hu
発行日 2025-06-12 11:22:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク