要約
事前に学習された強力な視覚言語モデル(VLMs)バックエンドを活用した大規模な視覚言語アクション(VLA)モデルは、その印象的な汎化能力により、ロボット制御において有望視されている。しかし、この成功には代償が伴う。何十億ものパラメータを持つVLMバックエンドへの依存は、高い計算コストと推論待ち時間をもたらし、テストシナリオは主に準静的タスクに限定され、迅速なインタラクションを必要とする動的タスクでのパフォーマンスを妨げる。これらの限界に対処するため、本論文では、柔軟な周波数と性能のトレードオフを可能にする階層型ロボットトランスフォーマーフレームワークであるHiRTを提案する。HiRTは、一時的に不変な特徴を捉えるためにVLMを低周波数で動作させ続ける一方で、ゆっくりと更新される特徴に導かれる高周波数のビジョンベースのポリシーにより、リアルタイムのインタラクションを可能にする。シミュレーションと実世界設定の両方における実験結果は、ベースライン手法に対する大幅な改善を示している。経験的に、静的なタスクでは、制御頻度を2倍にし、同等の成功率を達成した。さらに、従来のVLAモデルでは困難であった、新しい実世界の動的操作タスクにおいて、HiRTは成功率を48%から75%に改善した。
要約(オリジナル)
Large Vision-Language-Action (VLA) models, leveraging powerful pre trained Vision-Language Models (VLMs) backends, have shown promise in robotic control due to their impressive generalization ability. However, the success comes at a cost. Their reliance on VLM backends with billions of parameters leads to high computational costs and inference latency, limiting the testing scenarios to mainly quasi-static tasks and hindering performance in dynamic tasks requiring rapid interactions. To address these limitations, this paper proposes HiRT, a Hierarchical Robot Transformer framework that enables flexible frequency and performance trade-off. HiRT keeps VLMs running at low frequencies to capture temporarily invariant features while enabling real-time interaction through a high-frequency vision-based policy guided by the slowly updated features. Experiment results in both simulation and real-world settings demonstrate significant improvements over baseline methods. Empirically, in static tasks, we double the control frequency and achieve comparable success rates. Additionally, on novel real-world dynamic ma nipulation tasks which are challenging for previous VLA models, HiRT improves the success rate from 48% to 75%.
arxiv情報
| 著者 | Jianke Zhang,Yanjiang Guo,Xiaoyu Chen,Yen-Jen Wang,Yucheng Hu,Chengming Shi,Jianyu Chen | 
| 発行日 | 2025-02-03 04:07:37+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
