要約
視覚認識の主な目標は、1 つの画像からオブジェクトとシーンを理解することです。
2D 認識は、大規模な学習と汎用表現のおかげで驚異的な進歩を遂げています。
比較すると、3D は、画像に描かれていないオクルージョンに起因する新しい課題をもたらします。
以前の研究では、複数のビューから推論するか、希少な CAD モデルとカテゴリ固有の事前情報に依存することでこれらを克服しようとしましたが、これが新しい設定へのスケーリングを妨げていました。
この作業では、自己教師あり学習の進歩に触発された一般化可能な表現を学習することにより、単一ビューの 3D 再構成を探ります。
単一のオブジェクトまたはシーン全体の 3D ポイントで動作するシンプルなフレームワークを、さまざまな RGB-D ビデオからのカテゴリにとらわれない大規模なトレーニングと組み合わせて導入します。
私たちのモデルである Multiview Compressive Coding (MCC) は、3D 認識デコーダーにクエリを実行することで、入力の外観とジオメトリを圧縮して 3D 構造を予測することを学習します。
MCC の汎用性と効率性により、大規模で多様なデータ ソースから、DALL$\cdot$E 2 によって想像された、または iPhone で実際にキャプチャされた新しいオブジェクトへの強力な一般化を使用して学習できます。
要約(オリジナル)
A central goal of visual recognition is to understand objects and scenes from a single image. 2D recognition has witnessed tremendous progress thanks to large-scale learning and general-purpose representations. Comparatively, 3D poses new challenges stemming from occlusions not depicted in the image. Prior works try to overcome these by inferring from multiple views or rely on scarce CAD models and category-specific priors which hinder scaling to novel settings. In this work, we explore single-view 3D reconstruction by learning generalizable representations inspired by advances in self-supervised learning. We introduce a simple framework that operates on 3D points of single objects or whole scenes coupled with category-agnostic large-scale training from diverse RGB-D videos. Our model, Multiview Compressive Coding (MCC), learns to compress the input appearance and geometry to predict the 3D structure by querying a 3D-aware decoder. MCC’s generality and efficiency allow it to learn from large-scale and diverse data sources with strong generalization to novel objects imagined by DALL$\cdot$E 2 or captured in-the-wild with an iPhone.
arxiv情報
著者 | Chao-Yuan Wu,Justin Johnson,Jitendra Malik,Christoph Feichtenhofer,Georgia Gkioxari |
発行日 | 2023-01-19 18:59:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google