要約
人間は、物理的な世界で複雑なタスクを処理するときに実際のアクションを実行する前にゆっくりと思考を実践します。
この思考パラダイムは、最近、デジタルドメインの複雑なタスクを解決するために、大規模な言語モデル(LLM)を強化する際に顕著な進歩を達成しました。
しかし、ゆっくりと思考の可能性は、物理的な世界と相互作用するロボット基礎モデルのためにほとんど未踏のままです。
この作業では、Humeを提案します。価値誘導システム-2思考とカスケードアクション除去を備えたデュアルシステムビジョン言語アクション(VLA)モデルを提案します。
HUMEのシステム2は、予測されたアクションの状態アクション価値を推定するために、視覚言語アクションモデルバックボーンを新しいバリュークエリヘッドで拡張することにより、価値誘導思考を実装します。
価値誘導思考は、複数のアクション候補を繰り返しサンプリングし、状態アクション値に応じて1つを選択することによって行われます。
Humeのシステム1は、システム2選択されたアクションを採用し、器用なロボット制御のためのカスケードアクション除去を実行する軽量の反応性視覚運動ポリシーです。
展開時に、システム2は低周波数で価値誘導思考を実行し、システム1はシステム2選択したアクション候補を非同期に受信し、リアルタイムで流体アクションを予測します。
Humeは、複数のシミュレーションベンチマークとリアルロボットの展開にわたる既存の最先端のビジョンアクションモデルを上回ることを示しています。
要約(オリジナル)
Humans practice slow thinking before performing actual actions when handling complex tasks in the physical world. This thinking paradigm, recently, has achieved remarkable advancement in boosting Large Language Models (LLMs) to solve complex tasks in digital domains. However, the potential of slow thinking remains largely unexplored for robotic foundation models interacting with the physical world. In this work, we propose Hume: a dual-system Vision-Language-Action (VLA) model with value-guided System-2 thinking and cascaded action denoising, exploring human-like thinking capabilities of Vision-Language-Action models for dexterous robot control. System 2 of Hume implements value-Guided thinking by extending a Vision-Language-Action Model backbone with a novel value-query head to estimate the state-action value of predicted actions. The value-guided thinking is conducted by repeat sampling multiple action candidates and selecting one according to state-action value. System 1 of Hume is a lightweight reactive visuomotor policy that takes System 2 selected action and performs cascaded action denoising for dexterous robot control. At deployment time, System 2 performs value-guided thinking at a low frequency while System 1 asynchronously receives the System 2 selected action candidate and predicts fluid actions in real time. We show that Hume outperforms the existing state-of-the-art Vision-Language-Action models across multiple simulation benchmark and real-robot deployments.
arxiv情報
著者 | Haoming Song,Delin Qu,Yuanqi Yao,Qizhi Chen,Qi Lv,Yiwen Tang,Modi Shi,Guanghui Ren,Maoqing Yao,Bin Zhao,Dong Wang,Xuelong Li |
発行日 | 2025-05-29 15:15:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google