Invariant Training 2D-3D Joint Hard Samples for Few-Shot Point Cloud Recognition

要約

従来の 3D モデルと十分にトレーニングされた 2D モデルからの統合予測を使用して、3D オブジェクトの数ショット点群認識におけるデータ不足の課題に取り組みます。
驚くべきことに、このようなアンサンブルは、些細なことのように見えますが、最近の 2D ~ 3D モデルでは効果的であることがほとんど示されていません。
核心は「結合ハード サンプル」のトレーニングが効果的ではないことであることがわかりました。これは、異なる間違ったラベルに対して高い信頼性の予測があり、2D モデルと 3D モデルがうまく連携していないことを意味します。
この目的を達成するために、私たちが提案する InvJoint と呼ばれる不変トレーニング戦略は、ハード サンプルでのトレーニングをより強調するだけでなく、矛盾する 2D と 3D のあいまいな予測間の不変性も追求します。
InvJoint は、より良いアンサンブルを実現するために、より協調的な 2D および 3D 表現を学習できます。
広く採用されている ModelNet10/40、ScanObjectNN、Toys4K を使用した 3D 形状分類、および ShapeNet-Core を使用した形状検索に関する広範な実験により、InvJoint の優位性が検証されました。

要約(オリジナル)

We tackle the data scarcity challenge in few-shot point cloud recognition of 3D objects by using a joint prediction from a conventional 3D model and a well-trained 2D model. Surprisingly, such an ensemble, though seems trivial, has hardly been shown effective in recent 2D-3D models. We find out the crux is the less effective training for the ”joint hard samples”, which have high confidence prediction on different wrong labels, implying that the 2D and 3D models do not collaborate well. To this end, our proposed invariant training strategy, called InvJoint, does not only emphasize the training more on the hard samples, but also seeks the invariance between the conflicting 2D and 3D ambiguous predictions. InvJoint can learn more collaborative 2D and 3D representations for better ensemble. Extensive experiments on 3D shape classification with widely adopted ModelNet10/40, ScanObjectNN and Toys4K, and shape retrieval with ShapeNet-Core validate the superiority of our InvJoint.

arxiv情報

著者 Xuanyu Yi,Jiajun Deng,Qianru Sun,Xian-Sheng Hua,Joo-Hwee Lim,Hanwang Zhang
発行日 2023-08-18 17:43:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク