6-DoF Stability Field via Diffusion Models

要約

ロボット操作の中核となる機能は、雑然とした環境でオブジェクトをどこに、どのように安定して配置するかを推論することです。
従来、ロボットはそのような推論を実行するために、オブジェクト固有の手作りのヒューリスティックに依存していましたが、少数のオブジェクト インスタンスやオブジェクトの相互作用パターンを超える一般化可能性は限られていました。
最近のアプローチは代わりに、物理的相互作用の概念、つまり動き予測を学習しますが、ラベル付きのオブジェクト情報の形式で監視する必要があるか、サンプルの複雑さが犠牲になり、安定性やオブジェクトの配置について直接推論することはありません。
我々は、特定のシーンの安定した構成を生成するオブジェクトの 3D ポーズを生成できる生成モデルである 6-DoFusion を紹介します。
基礎となる 6-DoFusion は、ランダムに初期化された SE(3) ポーズを段階的に改良して、安定したポーズにわたる学習されたコンテキスト依存の分布からサンプルを生成する拡散モデルです。
さまざまなオブジェクトの配置とスタッキングのタスクでモデルを評価し、新しいオブジェクト クラスを含む安定したシーンを構築する能力と、最先端の 3D 姿勢推定方法の精度を向上させる能力を実証します。

要約(オリジナル)

A core capability for robot manipulation is reasoning over where and how to stably place objects in cluttered environments. Traditionally, robots have relied on object-specific, hand-crafted heuristics in order to perform such reasoning, with limited generalizability beyond a small number of object instances and object interaction patterns. Recent approaches instead learn notions of physical interaction, namely motion prediction, but require supervision in the form of labeled object information or come at the cost of high sample complexity, and do not directly reason over stability or object placement. We present 6-DoFusion, a generative model capable of generating 3D poses of an object that produces a stable configuration of a given scene. Underlying 6-DoFusion is a diffusion model that incrementally refines a randomly initialized SE(3) pose to generate a sample from a learned, context-dependent distribution over stable poses. We evaluate our model on different object placement and stacking tasks, demonstrating its ability to construct stable scenes that involve novel object classes as well as to improve the accuracy of state-of-the-art 3D pose estimation methods.

arxiv情報

著者 Takuma Yoneda,Tianchong Jiang,Gregory Shakhnarovich,Matthew R. Walter
発行日 2023-10-26 17:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク