Leveraging Positional Encoding for Robust Multi-Reference-Based Object 6D Pose Estimation

要約

オブジェクトの姿勢を正確に推定することは、コンピューター ビジョンとロボット工学において重要なタスクです。
これには、幾何学的表現回帰と反復改良という 2 つの主な深層学習アプローチがあります。
ただし、これらの方法には有効性を低下させるいくつかの制限があります。
このペーパーでは、これらの制限を分析し、それらを克服するための新しい戦略を提案します。
ぼやけた幾何学的表現の問題に取り組むために、オブジェクトの 3D 座標の高周波成分による位置エンコードを使用します。
リファインメント手法におけるローカル ミニマム問題に対処するために、固有の行列制約に依存しない、正規化されたイメージ プレーン ベースのマルチリファレンス リファインメント戦略を導入します。
最後に、アダプティブ インスタンス正規化とシンプルなオクルージョン拡張メソッドを利用して、モデルがターゲット オブジェクトに集中できるようにします。
Linemod、Linemod-Occlusion、YCB-Video データセットに関する実験では、私たちのアプローチが既存の方法よりも優れていることが実証されました。
近々コードを公開する予定です。

要約(オリジナル)

Accurately estimating the pose of an object is a crucial task in computer vision and robotics. There are two main deep learning approaches for this: geometric representation regression and iterative refinement. However, these methods have some limitations that reduce their effectiveness. In this paper, we analyze these limitations and propose new strategies to overcome them. To tackle the issue of blurry geometric representation, we use positional encoding with high-frequency components for the object’s 3D coordinates. To address the local minimum problem in refinement methods, we introduce a normalized image plane-based multi-reference refinement strategy that’s independent of intrinsic matrix constraints. Lastly, we utilize adaptive instance normalization and a simple occlusion augmentation method to help our model concentrate on the target object. Our experiments on Linemod, Linemod-Occlusion, and YCB-Video datasets demonstrate that our approach outperforms existing methods. We will soon release the code.

arxiv情報

著者 Jaewoo Park,Jaeguk Kim,Nam Ik Cho
発行日 2024-01-29 16:42:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク