Real-Time Execution of Action Chunking Flow Policies

要約

最新のAIシステム、特に物理的な世界と相互作用するシステムは、リアルタイムのパフォーマンスがますます必要になります。
ただし、最近の視覚言語アクションモデル(VLA)を含む最先端のジェネラリストモデルの高い遅延は、大きな課題をもたらします。
アクションチャンキングにより、高周波制御タスクの時間的一貫性が可能になりましたが、レイテンシの問題に完全に対処することはなく、一時停止または分散型のぎくしゃくした動きにつながります。
このペーパーでは、アクションチャンキングポリシーのスムーズな非同期実行を可能にする新しい推論時間アルゴリズムを提示します。
私たちの方法であるリアルタイムチャンキング(RTC)は、再トレーニングなしで箱から出して拡散またはフローベースのVLAに適用できます。
現在のアクションを実行しながら、次のアクションチャンクを生成します。これは、残りを実行し、「インタップ」することが保証されている「フリーズ」アクションを保証します。
RTCをテストするために、Kinetixシミュレーターに12の非常に動的なタスクの新しいベンチマークを導入し、6つの挑戦的な実世界の双方向操作タスクを評価します。
結果は、RTCが速く、パフォーマンスがあり、推論の遅延に対してユニークに堅牢であり、タスクスループットを大幅に改善し、正確なタスクでの高い成功率を有効にすることを示しています。
https://pi.website/research/real_time_chunkingを参照してください。

要約(オリジナル)

Modern AI systems, especially those interacting with the physical world, increasingly require real-time performance. However, the high latency of state-of-the-art generalist models, including recent vision-language action models (VLAs), poses a significant challenge. While action chunking has enabled temporal consistency in high-frequency control tasks, it does not fully address the latency problem, leading to pauses or out-of-distribution jerky movements at chunk boundaries. This paper presents a novel inference-time algorithm that enables smooth asynchronous execution of action chunking policies. Our method, real-time chunking (RTC), is applicable to any diffusion- or flow-based VLA out of the box with no re-training. It generates the next action chunk while executing the current one, ‘freezing’ actions guaranteed to execute and ‘inpainting’ the rest. To test RTC, we introduce a new benchmark of 12 highly dynamic tasks in the Kinetix simulator, as well as evaluate 6 challenging real-world bimanual manipulation tasks. Results demonstrate that RTC is fast, performant, and uniquely robust to inference delay, significantly improving task throughput and enabling high success rates in precise tasks $\unicode{x2013}$ such as lighting a match $\unicode{x2013}$ even in the presence of significant latency. See https://pi.website/research/real_time_chunking for videos.

arxiv情報

著者 Kevin Black,Manuel Y. Galliker,Sergey Levine
発行日 2025-06-09 01:01:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク