ManipDreamer: Boosting Robotic Manipulation World Model with Action Tree and Visual Guidance

要約

ロボット操作のビデオ統合の最近の進歩は有望であることを示していますが、効果的な指導の公開を確保し、高い視覚品質を達成することには大きな課題が続いています。
RobodReamerのような最近の方法は、言語分解を利用して指示を別々の低レベルのプリミティブに分割し、これらのプリミティブの世界モデルを調整して組成の指導を達成します。
ただし、これらの個別のプリミティブは、それらの間に存在する関係を考慮していません。
さらに、最近の方法は、視覚品質を向上させるために重要な深さやセマンティックガイダンスを含む貴重な視覚ガイダンスを無視しています。
このペーパーでは、アクションツリーと視覚的なガイダンスに基づいた高度な世界モデルであるManipDreamerを紹介します。
命令プリミティブ間の関係をよりよく学ぶために、命令をアクションツリーとして表し、ツリーノードに埋め込みを割り当てると、各命令はアクションツリーをナビゲートすることで埋め込みを取得できます。
命令埋め込みは、世界モデルを導くために使用できます。
視覚品質を向上させるために、視覚的なガイダンスアダプターと世界モデルと互換性のある視覚的なガイダンスアダプターを導入することにより、深さとセマンティックのガイダンスを組み合わせます。
この視覚アダプターは、ビデオ生成の時間的および物理的な一貫性の両方を強化します。
アクションツリーと視覚的なガイダンスに基づいて、マニップドリーマーは、指導に満ちた能力と視覚的品質を大幅に向上させます。
ロボット操作ベンチマークに関する包括的な評価により、マニップドリーマーが見たタスクと目に見えないタスクの両方でビデオ品質メトリックの大幅な改善を達成することが明らかになり、PSNRは19.55から21.05に改善され、SSIMは0.7474に改善され、0.7982に改善され、最近のタスクに比べて3.506から3.506から3.506から3.506から3.501に流れが減少しました。
さらに、私たちの方法は、平均して6つのRLBenchタスクでロボット操作タスクの成功率を2.5%増加させます。

要約(オリジナル)

While recent advancements in robotic manipulation video synthesis have shown promise, significant challenges persist in ensuring effective instruction-following and achieving high visual quality. Recent methods, like RoboDreamer, utilize linguistic decomposition to divide instructions into separate lower-level primitives, conditioning the world model on these primitives to achieve compositional instruction-following. However, these separate primitives do not consider the relationships that exist between them. Furthermore, recent methods neglect valuable visual guidance, including depth and semantic guidance, both crucial for enhancing visual quality. This paper introduces ManipDreamer, an advanced world model based on the action tree and visual guidance. To better learn the relationships between instruction primitives, we represent the instruction as the action tree and assign embeddings to tree nodes, each instruction can acquire its embeddings by navigating through the action tree. The instruction embeddings can be used to guide the world model. To enhance visual quality, we combine depth and semantic guidance by introducing a visual guidance adapter compatible with the world model. This visual adapter enhances both the temporal and physical consistency of video generation. Based on the action tree and visual guidance, ManipDreamer significantly boosts the instruction-following ability and visual quality. Comprehensive evaluations on robotic manipulation benchmarks reveal that ManipDreamer achieves large improvements in video quality metrics in both seen and unseen tasks, with PSNR improved from 19.55 to 21.05, SSIM improved from 0.7474 to 0.7982 and reduced Flow Error from 3.506 to 3.201 in unseen tasks, compared to the recent RoboDreamer model. Additionally, our method increases the success rate of robotic manipulation tasks by 2.5% in 6 RLbench tasks on average.

arxiv情報

著者 Ying Li,Xiaobao Wei,Xiaowei Chi,Yuming Li,Zhongyu Zhao,Hao Wang,Ningning Ma,Ming Lu,Shanghang Zhang
発行日 2025-04-23 07:23:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク