Data-Agnostic Robotic Long-Horizon Manipulation with Vision-Language-Guided Closed-Loop Feedback

要約

言語条件付きのロボット操作の最近の進歩により、ロボットが人間のコマンドからタスクを実行できるようにするために、模倣と強化学習を活用しました。
ただし、これらの方法は、コンピュータービジョンなどのデータが豊富なドメインとは異なり、限られた一般化、適応性、および大規模な専門データセットの欠如に悩まされることがよくあります。
これらのギャップに対処するために、リアルタイムのタスク計画と実行のために大規模な言語モデル(LLMS)を活用して、言語条件付きの長老ロボット操作のデータに依存しないフレームワークであるDahliaを紹介します。
Dahliaはデュアルトンネルアーキテクチャを採用しています。そこでは、LLMを搭載したプランナーが共同プランナーと協力してタスクを分解し、実行可能プランを生成し、レポーターLLMが閉ループフィードバックを提供し、適応的な再計画を可能にし、潜在的な障害からのタスクの回復を確保します。
さらに、Dahliaは、効率的なアクション実行のために、タスクの推論と時間的抽象化にチェーンオブ考え(COT)を統合し、トレーサビリティと堅牢性を高めます。
私たちのフレームワークは、多様な長老タスク全体で最先端のパフォーマンスを示し、シミュレートされたシナリオと現実世界の両方のシナリオで強力な一般化を達成しています。
ビデオとコードはhttps://ghiara.github.io/dahlia/で入手できます。

要約(オリジナル)

Recent advances in language-conditioned robotic manipulation have leveraged imitation and reinforcement learning to enable robots to execute tasks from human commands. However, these methods often suffer from limited generalization, adaptability, and the lack of large-scale specialized datasets, unlike data-rich domains such as computer vision, making long-horizon task execution challenging. To address these gaps, we introduce DAHLIA, a data-agnostic framework for language-conditioned long-horizon robotic manipulation, leveraging large language models (LLMs) for real-time task planning and execution. DAHLIA employs a dual-tunnel architecture, where an LLM-powered planner collaborates with co-planners to decompose tasks and generate executable plans, while a reporter LLM provides closed-loop feedback, enabling adaptive re-planning and ensuring task recovery from potential failures. Moreover, DAHLIA integrates chain-of-thought (CoT) in task reasoning and temporal abstraction for efficient action execution, enhancing traceability and robustness. Our framework demonstrates state-of-the-art performance across diverse long-horizon tasks, achieving strong generalization in both simulated and real-world scenarios. Videos and code are available at https://ghiara.github.io/DAHLIA/.

arxiv情報

著者 Yuan Meng,Xiangtong Yao,Haihui Ye,Yirui Zhou,Shengqiang Zhang,Zhenshan Bing,Alois Knoll
発行日 2025-03-27 20:32:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク