PRISM-DP: Spatial Pose-based Observations for Diffusion-Policies via Segmentation, Mesh Generation, and Pose Tracking

要約

拡散ベースの視覚運動ポリシーは、観測を条件とするアクション空間軌跡を除去することにより、ロボットの動きを生成します。
これらの観察結果は一般にRGB画像のストリームであり、その高次元にはかなりのタスクに関係のある情報が含まれているため、関連するパターンを抽出するために大きなモデルが必要です。
対照的に、時間の経過とともに重要なオブジェクトの空間ポーズ(位置と方向)などのより構造化された観測を使用すると、より少ないパラメーターで関連するパターンを認識できるよりコンパクトなポリシーをトレーニングできます。
ただし、オープンセットの実世界の環境で正確なオブジェクトのポーズを取得することは依然として困難です。
たとえば、関連するすべてのオブジェクトにマーカーが装備されていると仮定することは実用的ではありません。最近の学習ベースの6Dポーズ推定と追跡方法は、多くの場合、事前にスキャンされたオブジェクトメッシュに依存し、手動の再構築が必要です。
この作業では、PRISM-DPを提案します。これは、セグメンテーション、メッシュ生成、推定のポーズ、およびポーズ追跡モデルを活用して、タスク関連オブジェクトの空間的ポーズからコンパクトな拡散ポリシー学習を直接可能にすることを提案します。
重要なのは、PRISM-DPはメッシュ生成モデルを使用するため、手動メッシュの処理または作成の必要性を排除し、オープンセットの実世界の環境でのスケーラビリティと使いやすさを改善します。
シミュレーションと現実世界の両方の設定の両方のさまざまなタスクにわたる実験は、PRISM-DPが高次元の画像ベースの拡散ポリシーよりも優れていることを示しており、グラウンドトゥルース状態情報でトレーニングされたポリシーに匹敵するパフォーマンスを実現します。
私たちは、私たちのアプローチのより広い意味と限界についての議論で締めくくります。

要約(オリジナル)

Diffusion-based visuomotor policies generate robot motions by learning to denoise action-space trajectories conditioned on observations. These observations are commonly streams of RGB images, whose high dimensionality includes substantial task-irrelevant information, requiring large models to extract relevant patterns. In contrast, using more structured observations, such as the spatial poses (positions and orientations) of key objects over time, enables training more compact policies that can recognize relevant patterns with fewer parameters. However, obtaining accurate object poses in open-set, real-world environments remains challenging. For instance, it is impractical to assume that all relevant objects are equipped with markers, and recent learning-based 6D pose estimation and tracking methods often depend on pre-scanned object meshes, requiring manual reconstruction. In this work, we propose PRISM-DP, an approach that leverages segmentation, mesh generation, pose estimation, and pose tracking models to enable compact diffusion policy learning directly from the spatial poses of task-relevant objects. Crucially, because PRISM-DP uses a mesh generation model, it eliminates the need for manual mesh processing or creation, improving scalability and usability in open-set, real-world environments. Experiments across a range of tasks in both simulation and real-world settings show that PRISM-DP outperforms high-dimensional image-based diffusion policies and achieves performance comparable to policies trained with ground-truth state information. We conclude with a discussion of the broader implications and limitations of our approach.

arxiv情報

著者 Xiatao Sun,Yinxing Chen,Daniel Rakita
発行日 2025-05-01 06:41:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク