要約
データ駆動型であることは、ディープ ラーニング アルゴリズムの最も象徴的な特性の 1 つです。
ImageNet の誕生は、コンピューター ビジョンにおける「大規模データからの学習」という顕著なトレンドを推進します。
豊富なユニバーサル表現を取得するための ImageNet での事前トレーニングは、さまざまな 2D 視覚タスクに役立つことが明らかになっており、2D ビジョンの標準となっています。
ただし、現実世界の 3D データの収集には手間がかかるため、3D ビジョンで ImageNet に対応する一般的なデータセットはまだありません。
この欠点を改善するために、MVImgNet を導入します。これは、人間の日常生活で実世界のオブジェクトのビデオを撮影することで得られる非常に便利な多視点画像の大規模なデータセットです。
これには、238 クラスのオブジェクトを横断する 219,188 のビデオからの 650 万フレームが含まれており、オブジェクト マスク、カメラ パラメーター、点群の豊富な注釈が含まれています。
マルチビュー属性により、データセットに 3D 対応の信号が与えられ、2D と 3D ビジョンの間のソフトなブリッジになります。
放射輝度場の再構成、マルチビュー ステレオ、ビュー一貫性のある画像の理解など、さまざまな 3D および 2D 視覚タスクで MVImgNet の可能性を探るためのパイロット研究を行っています。MVImgNet は有望なパフォーマンスを示し、将来の探査の多くの可能性を残しています。
.
さらに、MVImgNet での密な再構成により、MVPNet と呼ばれる 3D オブジェクト ポイント クラウド データセットが導出され、150 のカテゴリから 87,200 のサンプルをカバーし、各ポイント クラウドにクラス ラベルが付けられます。
実験は、MVPNet が現実世界の 3D オブジェクト分類に利益をもたらす一方で、点群の理解に新たな課題をもたらすことを示しています。
MVImgNet と MVPNet は一般公開され、より幅広いビジョン コミュニティに刺激を与えることを期待しています。
要約(オリジナル)
Being data-driven is one of the most iconic properties of deep learning algorithms. The birth of ImageNet drives a remarkable trend of ‘learning from large-scale data’ in computer vision. Pretraining on ImageNet to obtain rich universal representations has been manifested to benefit various 2D visual tasks, and becomes a standard in 2D vision. However, due to the laborious collection of real-world 3D data, there is yet no generic dataset serving as a counterpart of ImageNet in 3D vision, thus how such a dataset can impact the 3D community is unraveled. To remedy this defect, we introduce MVImgNet, a large-scale dataset of multi-view images, which is highly convenient to gain by shooting videos of real-world objects in human daily life. It contains 6.5 million frames from 219,188 videos crossing objects from 238 classes, with rich annotations of object masks, camera parameters, and point clouds. The multi-view attribute endows our dataset with 3D-aware signals, making it a soft bridge between 2D and 3D vision. We conduct pilot studies for probing the potential of MVImgNet on a variety of 3D and 2D visual tasks, including radiance field reconstruction, multi-view stereo, and view-consistent image understanding, where MVImgNet demonstrates promising performance, remaining lots of possibilities for future explorations. Besides, via dense reconstruction on MVImgNet, a 3D object point cloud dataset is derived, called MVPNet, covering 87,200 samples from 150 categories, with the class label on each point cloud. Experiments show that MVPNet can benefit the real-world 3D object classification while posing new challenges to point cloud understanding. MVImgNet and MVPNet will be publicly available, hoping to inspire the broader vision community.
arxiv情報
著者 | Xianggang Yu,Mutian Xu,Yidan Zhang,Haolin Liu,Chongjie Ye,Yushuang Wu,Zizheng Yan,Chenming Zhu,Zhangyang Xiong,Tianyou Liang,Guanying Chen,Shuguang Cui,Xiaoguang Han |
発行日 | 2023-03-10 16:31:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google