Investigating the Nature of 3D Generalization in Deep Neural Networks

要約

タイトル:Deep Neural Networkにおける3D汎化の特性の調査

要約:
– 2Dトレーニング画像から新しい視点への汎化が必要な視覚オブジェクト認識システム
– 人間の視覚システムが新しい視点に対してどのように汎化できるかは心理学、コンピュータビジョン、神経科学で研究されモデル化されてきた
– 現代の深層学習アーキテクチャは、新しい視点においても汎化する能力があるが、そのメカニズムはまだ十分に理解されていない
– 研究では、一意の3Dオブジェクトに対応するラベルと、異なる3D方向でのオブジェクトの2Dビューに対応する例とした教師あり分類タスクを定式化し、3つの一般化モデルについて調査した
– 結果、Deep Neural Networkが新しい視点においても汎化する能力があることがわかったが、既存のモデルとは異なる方法で行われる。
– 視点の範囲を超えた外挿や、新しい回転軸に対する外挿は限定されており、ネットワークが完全な3D構造を推測したり、線形補間を使用したりするわけではないことが示唆された
– しかし、純粋な2Dマッチングに比べて一般化能力ははるかに優れている
– これらの発見は、3D汎化を実現するために必要な2Dビューを含むデータセットを設計するための手助けとなる
– 実験を再現するためのコードは公開されている:https://github.com/shoaibahmed/investigating_3d_generalization.git

要約(オリジナル)

Visual object recognition systems need to generalize from a set of 2D training views to novel views. The question of how the human visual system can generalize to novel views has been studied and modeled in psychology, computer vision, and neuroscience. Modern deep learning architectures for object recognition generalize well to novel views, but the mechanisms are not well understood. In this paper, we characterize the ability of common deep learning architectures to generalize to novel views. We formulate this as a supervised classification task where labels correspond to unique 3D objects and examples correspond to 2D views of the objects at different 3D orientations. We consider three common models of generalization to novel views: (i) full 3D generalization, (ii) pure 2D matching, and (iii) matching based on a linear combination of views. We find that deep models generalize well to novel views, but they do so in a way that differs from all these existing models. Extrapolation to views beyond the range covered by views in the training set is limited, and extrapolation to novel rotation axes is even more limited, implying that the networks do not infer full 3D structure, nor use linear interpolation. Yet, generalization is far superior to pure 2D matching. These findings help with designing datasets with 2D views required to achieve 3D generalization. Code to reproduce our experiments is publicly available: https://github.com/shoaibahmed/investigating_3d_generalization.git

arxiv情報

著者 Shoaib Ahmed Siddiqui,David Krueger,Thomas Breuel
発行日 2023-04-19 00:54:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク