QUAR-VLA: Vision-Language-Action Model for Quadruped Robots

要約

ロボットの知能の重要な現れは、自然に対話し、自律的に意思決定を行う能力です。
ロボット制御への従来のアプローチでは、認識、計画、意思決定が細分化されることが多く、システム設計は簡素化されますが、異なる情報ストリーム間の相乗効果が制限されます。
この区分化により、シームレスな自律的な推論、意思決定、アクションの実行を実現する際に課題が生じます。
これらの制限に対処するために、四脚ロボット用の視覚-言語-アクションタスク (QUAR-VLA) と呼ばれる新しいパラダイムがこの論文で導入されました。
このアプローチでは、視覚情報と指示を緊密に統合して実行可能なアクションを生成し、認識、計画、意思決定を効果的に統合します。
中心となるアイデアは、ロボットの全体的な知能を向上させることです。
この枠組み内では、きめの細かい指示を視覚情報に合わせて調整することが顕著な課題となっています。
これは、ロボットが視覚的観察と調和して詳細な指示を正確に解釈し、それに基づいて行動することを保証することに伴う複雑さを強調しています。
その結果、我々は、多様なモダリティからの視覚情報と命令を入力として統合し、現実世界のロボットの実行可能なアクションを生成する VLA モデルのファミリーである QUAdruped Robotic Transformer (QUART) を提案し、大規模マルチデータセットである QUAdruped Robot Dataset (QUARD) を提示します。
– QUART モデルをトレーニングするためのナビゲーション、複雑な地形移動、全身操作タスクを含むタスク データセット。
私たちの広範な評価 (4000 件の評価トライアル) は、私たちのアプローチがパフォーマンスの高いロボット政策につながり、QUART がさまざまな新しい機能を獲得できることを示しています。

要約(オリジナル)

The important manifestation of robot intelligence is the ability to naturally interact and autonomously make decisions. Traditional approaches to robot control often compartmentalize perception, planning, and decision-making, simplifying system design but limiting the synergy between different information streams. This compartmentalization poses challenges in achieving seamless autonomous reasoning, decision-making, and action execution. To address these limitations, a novel paradigm, named Vision-Language-Action tasks for QUAdruped Robots (QUAR-VLA), has been introduced in this paper. This approach tightly integrates visual information and instructions to generate executable actions, effectively merging perception, planning, and decision-making. The central idea is to elevate the overall intelligence of the robot. Within this framework, a notable challenge lies in aligning fine-grained instructions with visual perception information. This emphasizes the complexity involved in ensuring that the robot accurately interprets and acts upon detailed instructions in harmony with its visual observations. Consequently, we propose QUAdruped Robotic Transformer (QUART), a family of VLA models to integrate visual information and instructions from diverse modalities as input and generates executable actions for real-world robots and present QUAdruped Robot Dataset (QUARD), a large-scale multi-task dataset including navigation, complex terrain locomotion, and whole-body manipulation tasks for training QUART models. Our extensive evaluation (4000 evaluation trials) shows that our approach leads to performant robotic policies and enables QUART to obtain a range of emergent capabilities.

arxiv情報

著者 Pengxiang Ding,Han Zhao,Yan Liu,Wenxuan Song,Wenjie Zhang,Donglin Wang
発行日 2024-05-10 03:15:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク