KGpose: Keypoint-Graph Driven End-to-End Multi-Object 6D Pose Estimation via Point-Wise Pose Voting

要約

このレターでは、複数のオブジェクトの 6D 姿勢推定のための新しいエンドツーエンド フレームワークである KGpose について紹介します。
私たちのアプローチは、キーポイントベースの方法と、キーポイントのグラフ表現である「keypoint-graph」による学習可能な姿勢回帰を組み合わせたものです。
KGpose はまず、RGB 機能と点群機能のアテンション マルチモーダル機能融合を使用して、各オブジェクトの 3D キーポイントを推定します。
これらのキーポイントは点群の各点から推定され、グラフ表現に変換されます。
このネットワークは、グラフの畳み込みとそれに続く回転および移動ヘッドで設計された一連のキーポイント グラフの埋め込みとローカル グラフの埋め込みを通じて、各ポイントの 6D ポーズ パラメータを直接回帰します。
各オブジェクトの最終的なポーズは、点ごとの予測の候補から選択されます。
この方法はベンチマーク データセットで競合する結果を達成し、モデルの有効性を実証しています。
KGpose は、追加の位置特定ステップを必要とせずに複数オブジェクトの姿勢推定を可能にし、ロボット アプリケーションの複雑なシーンにおける幾何学的コンテキストを理解するための統合された効率的なソリューションを提供します。

要約(オリジナル)

This letter presents KGpose, a novel end-to-end framework for 6D pose estimation of multiple objects. Our approach combines keypoint-based method with learnable pose regression through `keypoint-graph’, which is a graph representation of the keypoints. KGpose first estimates 3D keypoints for each object using an attentional multi-modal feature fusion of RGB and point cloud features. These keypoints are estimated from each point of point cloud and converted into a graph representation. The network directly regresses 6D pose parameters for each point through a sequence of keypoint-graph embedding and local graph embedding which are designed with graph convolutions, followed by rotation and translation heads. The final pose for each object is selected from the candidates of point-wise predictions. The method achieves competitive results on the benchmark dataset, demonstrating the effectiveness of our model. KGpose enables multi-object pose estimation without requiring an extra localization step, offering a unified and efficient solution for understanding geometric contexts in complex scenes for robotic applications.

arxiv情報

著者 Andrew Jeong
発行日 2024-07-12 01:06:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク