Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction

要約

一般化可能な自己修正システムの構築は、ロボットが障害から回復するために重要です。
マルチモーダルの大手言語モデル(MLLMS)の進歩にもかかわらず、ロボットにセマンティックリフレクションの能力を失敗させ、セマンティックリフレクションを微調整されたロボットアクションを修正する方法に変換しているにもかかわらず、依然として重要な課題です。
このギャップに対処するために、フェニックスフレームワークを構築します。フェニックスフレームワークは、モーション命令をブリッジとして活用して、高レベルのセマンティックリフレクションを低レベルのロボットアクション修正に接続します。
このモーションベースの自己反省フレームワークでは、MLLMを使用したデュアルプロセスモーション調整メカニズムから始めて、セマンティックリフレクションを粗粒のモーション命令調整に変換します。
このモーション命令を活用するために、細粒のロボットアクションを修正する方法を導くために、高周波ロボットアクション補正の視覚的観測を統合するために、マルチタスクのモーション条件付き拡散ポリシーが提案されています。
これら2つのモデルを組み合わせることにより、一般化能力の需要を低レベルの操作ポリシーからMLLMS駆動型モーション調整モデルにシフトし、正確で微細なロボットアクション補正を促進することができます。
このフレームワークを利用して、ダイナミック環境との相互作用からモデルの機能を自動的に改善するために、生涯学習方法をさらに開発します。
Robomimicシミュレーションと実世界のシナリオの両方で行われた実験は、さまざまな操作タスクにわたるフレームワークの優れた一般化と堅牢性を証明しています。
私たちのコードは、\ href {https://github.com/gewu-lab/motion-self-reflection-framework} {https://github.com/gewu-lab/motion-self-reflection-framework}でリリースされています。

要約(オリジナル)

Building a generalizable self-correction system is crucial for robots to recover from failures. Despite advancements in Multimodal Large Language Models (MLLMs) that empower robots with semantic reflection ability for failure, translating semantic reflection into how to correct fine-grained robotic actions remains a significant challenge. To address this gap, we build the Phoenix framework, which leverages motion instruction as a bridge to connect high-level semantic reflection with low-level robotic action correction. In this motion-based self-reflection framework, we start with a dual-process motion adjustment mechanism with MLLMs to translate the semantic reflection into coarse-grained motion instruction adjustment. To leverage this motion instruction for guiding how to correct fine-grained robotic actions, a multi-task motion-conditioned diffusion policy is proposed to integrate visual observations for high-frequency robotic action correction. By combining these two models, we could shift the demand for generalization capability from the low-level manipulation policy to the MLLMs-driven motion adjustment model and facilitate precise, fine-grained robotic action correction. Utilizing this framework, we further develop a lifelong learning method to automatically improve the model’s capability from interactions with dynamic environments. The experiments conducted in both the RoboMimic simulation and real-world scenarios prove the superior generalization and robustness of our framework across a variety of manipulation tasks. Our code is released at \href{https://github.com/GeWu-Lab/Motion-based-Self-Reflection-Framework}{https://github.com/GeWu-Lab/Motion-based-Self-Reflection-Framework}.

arxiv情報

著者 Wenke Xia,Ruoxuan Feng,Dong Wang,Di Hu
発行日 2025-04-20 12:30:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク