要約
このホワイトペーパーでは、ビッグデータの検索を活用して経験から学ぶことにより、現実世界のロボット推論を加速する新しいTraujectoryMemoryパイプラインであるRT-Cacheを紹介します。
最新のビジョン言語アクション(VLA)モデルは多様なロボットタスクを処理できますが、多くの場合、ステップあたりの推論コストが高いため、タスクあたりの数分間、かなりの遅延が発生します。
対照的に、RTキャッシュは、以前に成功したロボットの軌跡の大規模なメモリを保存し、関連する多段階モーションスニペットを取得し、推論のオーバーヘッドを大幅に削減します。
メモリビルダーを軌道検索と統合することにより、非常に大きなデータセットでも扱いやすい効率的な検索プロセスを開発します。
RT-Cacheは、現在のシーンが過去の状態と一致するたびに、実際の経験を柔軟に蓄積し、それらを再生し、追加のサンプルしかない新しいまたは目に見えない環境に迅速に適応します。
Open-X実施形態データセットおよびその他の実際のデータの実験は、RTキャッシュが検索を欠くベースラインよりも速く、より正常にタスクを完了することを示しており、リアルタイム操作のための実用的なデータ駆動型ソリューションを示唆しています。
要約(オリジナル)
This paper introduces RT-cache, a novel trajectorymemory pipeline that accelerates real-world robot inference by leveraging big-data retrieval and learning from experience. While modern Vision-Language-Action (VLA) models can handle diverse robotic tasks, they often incur high per-step inference costs, resulting in significant latency, sometimes minutes per task. In contrast, RT-cache stores a large-scale Memory of previously successful robot trajectories and retrieves relevant multistep motion snippets, drastically reducing inference overhead. By integrating a Memory Builder with a Trajectory Retrieval, we develop an efficient retrieval process that remains tractable even for extremely large datasets. RT-cache flexibly accumulates real-world experiences and replays them whenever the current scene matches past states, adapting quickly to new or unseen environments with only a few additional samples. Experiments on the Open-X Embodiment Dataset and other real-world data demonstrate that RT-cache completes tasks both faster and more successfully than a baseline lacking retrieval, suggesting a practical, data-driven solution for real-time manipulation.
arxiv情報
著者 | Owen Kwon,Abraham George,Alison Bartsch,Amir Barati Farimani |
発行日 | 2025-05-14 00:41:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google