要約
強力な事前トレーニング済みビジョン言語モデル (VLM) バックエンドを活用する大規模ビジョン言語アクション (VLA) モデルは、その優れた汎化能力によりロボット制御において有望であることが示されています。
ただし、成功には代償が伴います。
数十億のパラメータを備えた VLM バックエンドへの依存により、高い計算コストと推論遅延が発生し、テスト シナリオが主に準静的タスクに制限され、迅速な対話が必要な動的タスクのパフォーマンスが妨げられます。
これらの制限に対処するために、この文書では、周波数とパフォーマンスの柔軟なトレードオフを可能にする階層型ロボット トランスフォーマー フレームワークである HiRT を提案します。
HiRT は、VLM を低頻度で実行し続けて、一時的に不変の特徴をキャプチャすると同時に、ゆっくりと更新される特徴によって導かれる高頻度のビジョンベースのポリシーを通じてリアルタイムの対話を可能にします。
シミュレーションと現実世界の両方の設定での実験結果は、ベースライン手法に比べて大幅な改善を示しています。
経験的に、静的タスクでは制御頻度を 2 倍にし、同等の成功率を達成します。
さらに、以前の VLA モデルでは困難であった新しい現実世界の動的操作タスクにおいて、HiRT は成功率を 48% から 75% に向上させます。
要約(オリジナル)
Large Vision-Language-Action (VLA) models, leveraging powerful pre trained Vision-Language Models (VLMs) backends, have shown promise in robotic control due to their impressive generalization ability. However, the success comes at a cost. Their reliance on VLM backends with billions of parameters leads to high computational costs and inference latency, limiting the testing scenarios to mainly quasi-static tasks and hindering performance in dynamic tasks requiring rapid interactions. To address these limitations, this paper proposes HiRT, a Hierarchical Robot Transformer framework that enables flexible frequency and performance trade-off. HiRT keeps VLMs running at low frequencies to capture temporarily invariant features while enabling real-time interaction through a high-frequency vision-based policy guided by the slowly updated features. Experiment results in both simulation and real-world settings demonstrate significant improvements over baseline methods. Empirically, in static tasks, we double the control frequency and achieve comparable success rates. Additionally, on novel real-world dynamic ma nipulation tasks which are challenging for previous VLA models, HiRT improves the success rate from 48% to 75%.
arxiv情報
著者 | Jianke Zhang,Yanjiang Guo,Xiaoyu Chen,Yen-Jen Wang,Yucheng Hu,Chengming Shi,Jianyu Chen |
発行日 | 2024-10-21 06:50:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google