Deep Models for Multi-View 3D Object Recognition: A Review

要約

人間の意思決定は、多くの場合、複数の視点や視点からの視覚情報に依存します。
対照的に、機械学習ベースの物体認識では、物体の単一画像からの情報が利用されます。
ただし、単一の画像によって伝えられる情報は、特に複雑な認識問題において、正確な意思決定には十分ではない可能性があります。
物体認識にマルチビュー 3D 表現を利用することは、これまでのところ、最先端のパフォーマンスを達成するための最も有望な結果を示しています。
このレビュー論文は、3D 分類および検索タスクのためのマルチビュー 3D オブジェクト認識方法の最近の進歩を包括的にカバーしています。
具体的には、広く利用され、最先端のパフォーマンスを達成しているディープラーニングベースおよびトランスフォーマーベースの技術に焦点を当てています。
最も一般的に使用される 3D データセット、カメラ構成とビュー数、ビュー選択戦略、事前トレーニングされた CNN アーキテクチャ、融合戦略、
3D 分類および 3D 検索タスクでの認識パフォーマンス。
さらに、マルチビュー分類を使用するさまざまなコンピューター ビジョン アプリケーションを調査します。
最後に、読者にこの分野の包括的な理解を提供するために、多視点 3D オブジェクト認識方法の開発に関する重要な発見と将来の方向性を強調します。

要約(オリジナル)

Human decision-making often relies on visual information from multiple perspectives or views. In contrast, machine learning-based object recognition utilizes information from a single image of the object. However, the information conveyed by a single image may not be sufficient for accurate decision-making, particularly in complex recognition problems. The utilization of multi-view 3D representations for object recognition has thus far demonstrated the most promising results for achieving state-of-the-art performance. This review paper comprehensively covers recent progress in multi-view 3D object recognition methods for 3D classification and retrieval tasks. Specifically, we focus on deep learning-based and transformer-based techniques, as they are widely utilized and have achieved state-of-the-art performance. We provide detailed information about existing deep learning-based and transformer-based multi-view 3D object recognition models, including the most commonly used 3D datasets, camera configurations and number of views, view selection strategies, pre-trained CNN architectures, fusion strategies, and recognition performance on 3D classification and 3D retrieval tasks. Additionally, we examine various computer vision applications that use multi-view classification. Finally, we highlight key findings and future directions for developing multi-view 3D object recognition methods to provide readers with a comprehensive understanding of the field.

arxiv情報

著者 Mona Alzahrani,Muhammad Usman,Salma Kammoun,Saeed Anwar,Tarek Helmy
発行日 2024-04-23 16:54:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク