要約
ディープラーニング技術は、マルチビュー3D再構成タスクにおいて大きな進歩を遂げている。現在、ほとんどの主流のソリューションは、基本構造として2Dエンコーダと3Dデコーダのネットワークを組み立てることによって、ビューとオブジェクトの形状の間のマッピングを確立する一方で、複数のビューからの特徴の集約を得るために異なるアプローチを採用しています。その中で、注意に基づく融合は、他の方法よりも性能が良く、安定しているが、融合するための重みを予測する際に、各ビューが強く独立しているため、グローバルな状態に適応できない、という明らかな欠点がある。本論文では、各ブランチとグローバルとの相関関係を構築し、重み推定のための包括的な基盤を提供する、グローバルを意識した注意に基づく融合アプローチを提案する。ネットワークの能力を高めるために、形状全体を監督する新しい損失関数を導入し、注意に基づく融合ですべての再構成器に効果的に適応できる動的な2段階学習戦略を提案する。ShapeNetを用いた実験により、本手法が既存のSOTA手法を上回りながら、同種のアルゴリズムであるPix2Vox++よりもパラメータ量が圧倒的に少ないことを確認する。さらに、多様性の最大化に基づくビューリダクション手法を提案し、重い入力量と限られた計算コストに直面したときに、より良い性能を達成するための本モデルのコスト・パフォーマンストレードオフを議論する。
要約(オリジナル)
Deep learning technology has made great progress in multi-view 3D reconstruction tasks. At present, most mainstream solutions establish the mapping between views and shape of an object by assembling the networks of 2D encoder and 3D decoder as the basic structure while they adopt different approaches to obtain aggregation of features from several views. Among them, the methods using attention-based fusion perform better and more stable than the others, however, they still have an obvious shortcoming — the strong independence of each view during predicting the weights for merging leads to a lack of adaption of the global state. In this paper, we propose a global-aware attention-based fusion approach that builds the correlation between each branch and the global to provide a comprehensive foundation for weights inference. In order to enhance the ability of the network, we introduce a novel loss function to supervise the shape overall and propose a dynamic two-stage training strategy that can effectively adapt to all reconstructors with attention-based fusion. Experiments on ShapeNet verify that our method outperforms existing SOTA methods while the amount of parameters is far less than the same type of algorithm, Pix2Vox++. Furthermore, we propose a view-reduction method based on maximizing diversity and discuss the cost-performance tradeoff of our model to achieve a better performance when facing heavy input amount and limited computational cost.
arxiv情報
著者 | Zhenwei Zhu,Liying Yang,Xuxin Lin,Chaohao Jiang,Ning Li,Lin Yang,Yanyan Liang |
発行日 | 2022-11-04 07:45:19+00:00 |
arxivサイト | arxiv_id(pdf) |