要約
近年のロボット工学と身体型 AI の大幅な進歩にも関わらず、長期的なタスクにロボットを導入することは依然として大きな課題です。
従来技術の大部分は、開ループの哲学に準拠しており、リアルタイムのフィードバックが欠如しており、エラーの蓄積と望ましくない堅牢性をもたらします。
ピクセルレベルの違いや事前トレーニングされた視覚表現を活用したフィードバックメカニズムを確立しようとするアプローチはいくつかありますが、その有効性と適応性には制約があることがわかっています。
古典的な閉ループ制御システムからインスピレーションを得て、適応ロボット制御を改善するためのフィードバック メカニズムを組み込んだ閉ループ視覚運動制御フレームワークである CLOVER を提案します。
CLOVER は、参照入力として視覚的な計画を生成するためのテキスト条件付きビデオ拡散モデル、正確なエラー定量化のための測定可能な埋め込み空間、およびフィードバックからアクションを改良し、必要に応じて再計画を開始するフィードバック駆動型コントローラーで構成されています。
当社のフレームワークは、現実世界のロボット タスクにおいて顕著な進歩を示し、CALVIN ベンチマークで最先端を達成し、以前のオープンループのフレームワークと比べて 8% 向上しました。
コードとチェックポイントは https://github.com/OpenDriveLab/CLOVER で保守されています。
要約(オリジナル)
Despite significant progress in robotics and embodied AI in recent years, deploying robots for long-horizon tasks remains a great challenge. Majority of prior arts adhere to an open-loop philosophy and lack real-time feedback, leading to error accumulation and undesirable robustness. A handful of approaches have endeavored to establish feedback mechanisms leveraging pixel-level differences or pre-trained visual representations, yet their efficacy and adaptability have been found to be constrained. Inspired by classic closed-loop control systems, we propose CLOVER, a closed-loop visuomotor control framework that incorporates feedback mechanisms to improve adaptive robotic control. CLOVER consists of a text-conditioned video diffusion model for generating visual plans as reference inputs, a measurable embedding space for accurate error quantification, and a feedback-driven controller that refines actions from feedback and initiates replans as needed. Our framework exhibits notable advancement in real-world robotic tasks and achieves state-of-the-art on CALVIN benchmark, improving by 8% over previous open-loop counterparts. Code and checkpoints are maintained at https://github.com/OpenDriveLab/CLOVER.
arxiv情報
著者 | Qingwen Bu,Jia Zeng,Li Chen,Yanchao Yang,Guyue Zhou,Junchi Yan,Ping Luo,Heming Cui,Yi Ma,Hongyang Li |
発行日 | 2024-09-13 17:45:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google