FlowDreamer: A RGB-D World Model with Flow-based Motion Representations for Robot Manipulation

要約

このペーパーでは、ロボット操作のためのより良い視覚世界モデル、つまり過去のフレームやロボットアクションを条件付けて将来の視覚観測を予測できるモデルを調査します。
具体的には、RGB-Dフレーム(RGB-Dワールドモデル)で動作する世界モデルを検討します。
ダイナミクスの予測を主に暗黙的に処理し、単一のモデルで視覚レンダリングと調整する標準的なアプローチとは対照的に、3Dシーンフローを明示的なモーション表現として採用するFlowDreamerを紹介します。
FlowDreamerは、最初にU-NETを使用して過去のフレームとアクション条件からの3Dシーンフローを予測し、次に拡散モデルはシーンフローを利用して将来のフレームを予測します。
FlowDreamerは、モジュール化された性質にもかかわらずエンドツーエンドのトレーニングを受けています。
4つの異なるベンチマークで実験を行い、ビデオ予測と視覚計画の両方のタスクの両方をカバーします。
結果は、FlowDreamerが他のベースラインRGB-Dワールドモデルと比較して、セマンティックの類似性で7%、ピクセル品質で11%、さまざまなロボット操作ドメインの成功率で6%を達成することを示しています。

要約(オリジナル)

This paper investigates training better visual world models for robot manipulation, i.e., models that can predict future visual observations by conditioning on past frames and robot actions. Specifically, we consider world models that operate on RGB-D frames (RGB-D world models). As opposed to canonical approaches that handle dynamics prediction mostly implicitly and reconcile it with visual rendering in a single model, we introduce FlowDreamer, which adopts 3D scene flow as explicit motion representations. FlowDreamer first predicts 3D scene flow from past frame and action conditions with a U-Net, and then a diffusion model will predict the future frame utilizing the scene flow. FlowDreamer is trained end-to-end despite its modularized nature. We conduct experiments on 4 different benchmarks, covering both video prediction and visual planning tasks. The results demonstrate that FlowDreamer achieves better performance compared to other baseline RGB-D world models by 7% on semantic similarity, 11% on pixel quality, and 6% on success rate in various robot manipulation domains.

arxiv情報

著者 Jun Guo,Xiaojian Ma,Yikai Wang,Min Yang,Huaping Liu,Qing Li
発行日 2025-05-15 08:27:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク