要約
具体化された人工知能の急速な発展に伴い、一般的なロボットの意思決定のための視覚言語行動(VLA)モデルが大幅に進歩しました。
ただし、既存のVLAの大部分は、展開中に遭遇する避けられない外部摂動を説明できません。
これらの摂動により、予期せぬ状態情報がVLAに導入され、その結果、不正確なアクションが発生し、その結果、一般化パフォーマンスが大幅に減少します。
古典的な内部モデルコントロール(IMC)原理は、外部入力信号を含む内部モデルを備えた閉ループシステムが参照入力を正確に追跡し、妨害を効果的に相殺できることを示しています。
IMCの原理を統合してロボットの視覚操作の堅牢性を高める新しい閉ループループVLAメソッドGevrmを提案します。
GEVRMのテキスト誘導ビデオ生成モデルは、非常に表現力のある将来の視覚計画の目標を生み出すことができます。
同時に、内部埋め込みと呼ばれる応答をシミュレートすることにより、摂動を評価し、プロトタイプの対照学習を通じて最適化されます。
これにより、モデルは摂動を外部環境と暗黙的に推測し、区別することができます。
提案されているGEVRMは、標準と摂動の両方のカルビンベンチマークの両方で最先端のパフォーマンスを達成し、現実的なロボットタスクの大幅な改善を示しています。
要約(オリジナル)
With the rapid development of embodied artificial intelligence, significant progress has been made in vision-language-action (VLA) models for general robot decision-making. However, the majority of existing VLAs fail to account for the inevitable external perturbations encountered during deployment. These perturbations introduce unforeseen state information to the VLA, resulting in inaccurate actions and consequently, a significant decline in generalization performance. The classic internal model control (IMC) principle demonstrates that a closed-loop system with an internal model that includes external input signals can accurately track the reference input and effectively offset the disturbance. We propose a novel closed-loop VLA method GEVRM that integrates the IMC principle to enhance the robustness of robot visual manipulation. The text-guided video generation model in GEVRM can generate highly expressive future visual planning goals. Simultaneously, we evaluate perturbations by simulating responses, which are called internal embeddings and optimized through prototype contrastive learning. This allows the model to implicitly infer and distinguish perturbations from the external environment. The proposed GEVRM achieves state-of-the-art performance on both standard and perturbed CALVIN benchmarks and shows significant improvements in realistic robot tasks.
arxiv情報
著者 | Hongyin Zhang,Pengxiang Ding,Shangke Lyu,Ying Peng,Donglin Wang |
発行日 | 2025-02-14 01:51:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google