要約
具体化されたチェーンオブオブチーズ(ECOT)推論は、中間推論ステップを通じてパフォーマンスと解釈性を向上させることにより、ビジョン言語アクション(VLA)モデルを強化します。
ただし、その連続した自動脱体トークンの生成は、リアルタイムの展開を制限し、重要な推論潜時をもたらします。
ECOTの構造化された繰り返しの性質を(1)タイムステップ全体で高レベルの推論を再利用し、(2)モジュール式推論ステップの生成を並列化する推論時間加速方法である高速ECOTを提案します。
さらに、アクションデコードから推論を切り離し、応答性をさらに高める非同期スケジューラを導入します。
高速ECOTには、モデルの変更も追加のトレーニングも必要ありません。既存のVLAパイプラインに簡単に統合します。
シミュレーション(Libero)と実際のロボットタスクの両方での実験は、匹敵するまたは改善されたタスクの成功率と忠実さの推論により、レイテンシが7.5%減少し、ECOTポリシーが実際のリアルタイムの展開に近づきます。
要約(オリジナル)
Embodied Chain-of-Thought (ECoT) reasoning enhances vision-language-action (VLA) models by improving performance and interpretability through intermediate reasoning steps. However, its sequential autoregressive token generation introduces significant inference latency, limiting real-time deployment. We propose Fast ECoT, an inference-time acceleration method that exploits the structured and repetitive nature of ECoT to (1) cache and reuse high-level reasoning across timesteps and (2) parallelise the generation of modular reasoning steps. Additionally, we introduce an asynchronous scheduler that decouples reasoning from action decoding, further boosting responsiveness. Fast ECoT requires no model changes or additional training and integrates easily into existing VLA pipelines. Experiments in both simulation (LIBERO) and real-world robot tasks show up to a 7.5% reduction in latency with comparable or improved task success rate and reasoning faithfulness, bringing ECoT policies closer to practical real-time deployment.
arxiv情報
著者 | Zhekai Duan,Yuan Zhang,Shikai Geng,Gaowen Liu,Joschka Boedecker,Chris Xiaoxuan Lu |
発行日 | 2025-06-09 11:04:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google