ReorientDiff: Diffusion Model based Reorientation for Object Manipulation

要約

オブジェクトを希望の構成で操作できることは、ロボットがさまざまな実用的なアプリケーションを完成させるための基本的な要件です。
特定の目標は、対象のオブジェクトを直接選択して配置することで達成できますが、ほとんどのタスクでは正確に配置するにはオブジェクトの向きを再設定する必要があります。
このようなシナリオでは、ターゲット ポーズでの正確な配置を容易にするために、オブジェクトの向きを変更し、中間ポーズに再配置する必要があります。
この目的を達成するために、拡散モデルベースのアプローチを利用した再配向計画手法 ReorientDiff を提案します。
提案された方法は、シーンからの視覚入力と、目標固有の言語プロンプトの両方を使用して、中間の方向転換ポーズを計画します。
具体的には、シーンと言語タスクの情報は、シーンとタスクの結合表現特徴空間にマッピングされ、その後、拡散モデルの条件付けに利用されます。
拡散モデルは、分類子を使用しないガイダンスを使用して表現に基づいて中間ポーズをサンプリングし、学習された実行可能性スコア モデルの勾配を使用して、暗黙的な反復ポーズ調整を行います。
提案された方法は、一連の YCB オブジェクトと吸引グリッパーを使用して評価され、シミュレーションで 95.2% の成功率を示しました。
全体として、私たちの研究は、条件付き分布を学習することで操作における再配向の課題に対処する有望なアプローチを示しています。これは、より一般化可能なオブジェクト操作に移行するための効果的な方法です。
詳しい結果については、Web サイト https://utkarshmishra04.github.io/ReorientDiff をご覧ください。

要約(オリジナル)

The ability to manipulate objects in a desired configurations is a fundamental requirement for robots to complete various practical applications. While certain goals can be achieved by picking and placing the objects of interest directly, object reorientation is needed for precise placement in most of the tasks. In such scenarios, the object must be reoriented and re-positioned into intermediate poses that facilitate accurate placement at the target pose. To this end, we propose a reorientation planning method, ReorientDiff, that utilizes a diffusion model-based approach. The proposed method employs both visual inputs from the scene, and goal-specific language prompts to plan intermediate reorientation poses. Specifically, the scene and language-task information are mapped into a joint scene-task representation feature space, which is subsequently leveraged to condition the diffusion model. The diffusion model samples intermediate poses based on the representation using classifier-free guidance and then uses gradients of learned feasibility-score models for implicit iterative pose-refinement. The proposed method is evaluated using a set of YCB-objects and a suction gripper, demonstrating a success rate of 95.2% in simulation. Overall, our study presents a promising approach to address the reorientation challenge in manipulation by learning a conditional distribution, which is an effective way to move towards more generalizable object manipulation. For more results, checkout our website: https://utkarshmishra04.github.io/ReorientDiff.

arxiv情報

著者 Utkarsh A. Mishra,Yongxin Chen
発行日 2023-09-15 03:14:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク