SPLIT: SE(3)-diffusion via Local Geometry-based Score Prediction for 3D Scene-to-Pose-Set Matching Problems

要約

多用途なロボット操作を可能にするには、ロボットは生のシーンからさまざまな目的でタスクに関連したポーズを検出する必要があります。
現在、多くの認識アルゴリズムは特定の目的のために設計されており、認識モジュールの柔軟性が制限されています。
タスク固有のヒューリスティックに依存せずに、シーンからの対応するポーズを直接照合する、3D シーンとポーズセットのマッチングと呼ばれる一般的な問題定式化を提示します。
これに対処するために、シーンからポーズ サンプルを生成するための SE(3) 拡散モデルである SPLIT を導入します。
モデルの効率は、サンプルのポーズに関するローカル ジオメトリに基づいてスコアを予測することで得られます。
さらに、拡散モデルの条件付き生成機能を活用して、SPLIT が単一モデル内でマグカップの向きの変更と吊り下げ操作の両方を完了するために必要な多目的ポーズを生成できることを実証します。

要約(オリジナル)

To enable versatile robot manipulation, robots must detect task-relevant poses for different purposes from raw scenes. Currently, many perception algorithms are designed for specific purposes, which limits the flexibility of the perception module. We present a general problem formulation called 3D scene-to-pose-set matching, which directly matches the corresponding poses from the scene without relying on task-specific heuristics. To address this, we introduce SPLIT, an SE(3)-diffusion model for generating pose samples from a scene. The model’s efficiency comes from predicting scores based on local geometry with respect to the sample pose. Moreover, leveraging the conditioned generation capability of diffusion models, we demonstrate that SPLIT can generate the multi-purpose poses, required to complete both the mug reorientation and hanging manipulation within a single model.

arxiv情報

著者 Kanghyun Kim,Min Jun Kim
発行日 2024-11-15 09:00:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク