要約
我々は、オブジェクトのグローバルに一貫した 3D 表現を使用して、複雑なマルチオブジェクト シーンのビデオに注釈を付ける方法を提案します。
各オブジェクトにデータベースからの CAD モデルで注釈を付け、9-DoF ポーズ変換を使用してシーンの 3D 座標フレームに配置します。
私たちの方法は半自動であり、深度センサーを必要とせずに、一般に入手可能な RGB ビデオで動作します。
多くの手順は自動的に実行され、人間が実行するタスクは単純で明確に指定されており、3D では限られた推論のみが必要です。
これによりクラウドソーシングが可能になり、YouTube の不動産ビデオに注釈を付けることで大規模なデータセットを構築できるようになりました。
当社のデータセット CAD-Estate は、20,000 ビデオの 3D 表現に配置された 12,000 の固有の CAD モデルの 101,000 のインスタンスを提供します。
実際のシーン上の CAD モデル アノテーションを含む既存の最大のデータセットである Scan2CAD と比較して、CAD-Estate には 7 倍多くのインスタンスと 4 倍以上の固有の CAD モデルがあります。
自動 3D オブジェクト再構築と姿勢推定のタスクのために CAD-Estate で Mask2CAD モデルを事前トレーニングする利点を紹介し、それが人気のある Scan2CAD ベンチマークのパフォーマンス向上につながることを実証します。
データセットは https://github.com/google-research/cad-estate で入手できます。
要約(オリジナル)
We propose a method for annotating videos of complex multi-object scenes with a globally-consistent 3D representation of the objects. We annotate each object with a CAD model from a database, and place it in the 3D coordinate frame of the scene with a 9-DoF pose transformation. Our method is semi-automatic and works on commonly-available RGB videos, without requiring a depth sensor. Many steps are performed automatically, and the tasks performed by humans are simple, well-specified, and require only limited reasoning in 3D. This makes them feasible for crowd-sourcing and has allowed us to construct a large-scale dataset by annotating real-estate videos from YouTube. Our dataset CAD-Estate offers 101k instances of 12k unique CAD models placed in the 3D representations of 20k videos. In comparison to Scan2CAD, the largest existing dataset with CAD model annotations on real scenes, CAD-Estate has 7x more instances and 4x more unique CAD models. We showcase the benefits of pre-training a Mask2CAD model on CAD-Estate for the task of automatic 3D object reconstruction and pose estimation, demonstrating that it leads to performance improvements on the popular Scan2CAD benchmark. The dataset is available at https://github.com/google-research/cad-estate.
arxiv情報
著者 | Kevis-Kokitsi Maninis,Stefan Popov,Matthias Nießner,Vittorio Ferrari |
発行日 | 2023-08-14 12:16:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google