要約
実世界のアプリケーションでは、物体の3Dポーズとクラスラベルを共同で推定すること、すなわち3D認識分類を行うことが不可欠である。画像分類やポーズ推定のための現在のアプローチは、3D認識分類に拡張できるものの、我々は、それらが本質的に制限されていることを観察した:1)その性能は、それぞれのシングルタスクモデルと比較してはるかに低い、2)配信外(OOD)シナリオにロバストでない。我々の主な貢献は、3D認識分類のための新しいアーキテクチャであり、これは最近の研究を基にしたもので、シングルタスクのモデルに匹敵する性能を持ちながら、高い堅牢性を備えている。本手法では、オブジェクトのカテゴリを、各メッシュの頂点にある特徴ベクトルからなる3Dキューボイドメッシュとして表現する。微分可能なレンダリングを用いて、メッシュとターゲット画像の特徴表現との間の再構成誤差を最小化することで、3Dオブジェクトの姿勢を推定する。次に、オブジェクトのカテゴリ間で再構成損失を比較することにより、オブジェクトの分類が行われる。注目すべきは、メッシュのニューラルテクスチャを識別的に学習させることで、再構成損失の局所最適を回避しつつ、分類性能を向上させることである。さらに、本手法とフィードフォワードニューラルネットワークを組み合わせることで、レンダーアンドコンパイルのアプローチをより多くのカテゴリに拡張できることを示す。PASCAL3D+、ocluded-PASCAL3D+、OOD-CVを用いた実験により、本手法は3D認識分類において、性能と頑健性の点ですべてのベースラインを大きく上回ることが示された。
要約(オリジナル)
In real-world applications, it is essential to jointly estimate the 3D object pose and class label of objects, i.e., to perform 3D-aware classification.While current approaches for either image classification or pose estimation can be extended to 3D-aware classification, we observe that they are inherently limited: 1) Their performance is much lower compared to the respective single-task models, and 2) they are not robust in out-of-distribution (OOD) scenarios. Our main contribution is a novel architecture for 3D-aware classification, which builds upon a recent work and performs comparably to single-task models while being highly robust. In our method, an object category is represented as a 3D cuboid mesh composed of feature vectors at each mesh vertex. Using differentiable rendering, we estimate the 3D object pose by minimizing the reconstruction error between the mesh and the feature representation of the target image. Object classification is then performed by comparing the reconstruction losses across object categories. Notably, the neural texture of the mesh is trained in a discriminative manner to enhance the classification performance while also avoiding local optima in the reconstruction loss. Furthermore, we show how our method and feed-forward neural networks can be combined to scale the render-and-compare approach to larger numbers of categories. Our experiments on PASCAL3D+, occluded-PASCAL3D+, and OOD-CV show that our method outperforms all baselines at 3D-aware classification by a wide margin in terms of performance and robustness.
arxiv情報
| 著者 | Artur Jesslen,Guofeng Zhang,Angtian Wang,Alan Yuille,Adam Kortylewski |
| 発行日 | 2023-06-05 17:39:03+00:00 |
| arxivサイト | arxiv_id(pdf) |