要約
画像からオブジェクトの姿勢を推定することは、3D シーンを理解する上で重要なタスクであり、最近のアプローチは非常に大規模なベンチマークで有望な結果を示しています。
ただし、これらのメソッドでは、目に見えないオブジェクトを処理するときにパフォーマンスが大幅に低下します。
私たちは、これは画像の特徴の一般化可能性が限られていることに起因すると考えています。
この問題に対処するために、拡散モデルの特徴について詳細な分析を行いました。
安定した拡散は、目に見えないオブジェクトをモデル化するための大きな可能性を秘めています。
この分析に基づいて、オブジェクトの姿勢推定にこれらの拡散特徴を革新的に導入します。
これを達成するために、異なる粒度の拡散特徴を効果的に捕捉および集約し、物体姿勢推定の一般化可能性を大幅に向上できる 3 つの異なるアーキテクチャを提案します。
私たちのアプローチは、LM、O-LM、T-LESS という 3 つの一般的なベンチマーク データセットにおいて、最先端の手法を大幅に上回っています。
特に、私たちの手法は、目に見えないオブジェクトに対してこれまでの最高のアーツよりも高い精度を達成しています。Unseen LM では 98.2% 対 93.5%、Unseen O-LM では 85.9% 対 76.3% であり、私たちの手法の高い一般化可能性を示しています。
私たちのコードは https://github.com/Tianfu18/diff-feats-pose で公開されています。
要約(オリジナル)
Estimating the pose of objects from images is a crucial task of 3D scene understanding, and recent approaches have shown promising results on very large benchmarks. However, these methods experience a significant performance drop when dealing with unseen objects. We believe that it results from the limited generalizability of image features. To address this problem, we have an in-depth analysis on the features of diffusion models, e.g. Stable Diffusion, which hold substantial potential for modeling unseen objects. Based on this analysis, we then innovatively introduce these diffusion features for object pose estimation. To achieve this, we propose three distinct architectures that can effectively capture and aggregate diffusion features of different granularity, greatly improving the generalizability of object pose estimation. Our approach outperforms the state-of-the-art methods by a considerable margin on three popular benchmark datasets, LM, O-LM, and T-LESS. In particular, our method achieves higher accuracy than the previous best arts on unseen objects: 98.2% vs. 93.5% on Unseen LM, 85.9% vs. 76.3% on Unseen O-LM, showing the strong generalizability of our method. Our code is released at https://github.com/Tianfu18/diff-feats-pose.
arxiv情報
著者 | Tianfu Wang,Guosheng Hu,Hongguang Wang |
発行日 | 2024-03-27 17:35:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google