要約
同じモデルを使用して、ポーズ推定、深度予測、新しいビュー合成を含むいくつかの写真測量測定サブタスクを実行する統合モデルであるMatrix3Dを提示します。
Matrix3Dは、マルチモーダル拡散トランス(DIT)を利用して、画像、カメラパラメーター、深度マップなどのいくつかのモダリティにわたって変換を統合します。
Matrix3Dの大規模なマルチモーダルトレーニングの鍵は、マスク学習戦略の組み込みにあります。
これにより、画像ポーズや画像の深いペアのバイモダリティデータなど、部分的に完全なデータを使用してもフルモダリティモデルトレーニングが可能になるため、利用可能なトレーニングデータのプールが大幅に増加します。
Matrix3dは、ポーズ推定と新しいビュー合成タスクの最先端のパフォーマンスを示しています。
さらに、マルチラウンドの相互作用を通じて細粒の制御を提供し、3Dコンテンツ作成のための革新的なツールになります。
プロジェクトページ:https://nju-3dv.github.io/projects/matrix3d。
要約(オリジナル)
We present Matrix3D, a unified model that performs several photogrammetry subtasks, including pose estimation, depth prediction, and novel view synthesis using just the same model. Matrix3D utilizes a multi-modal diffusion transformer (DiT) to integrate transformations across several modalities, such as images, camera parameters, and depth maps. The key to Matrix3D’s large-scale multi-modal training lies in the incorporation of a mask learning strategy. This enables full-modality model training even with partially complete data, such as bi-modality data of image-pose and image-depth pairs, thus significantly increases the pool of available training data. Matrix3D demonstrates state-of-the-art performance in pose estimation and novel view synthesis tasks. Additionally, it offers fine-grained control through multi-round interactions, making it an innovative tool for 3D content creation. Project page: https://nju-3dv.github.io/projects/matrix3d.
arxiv情報
著者 | Yuanxun Lu,Jingyang Zhang,Tian Fang,Jean-Daniel Nahmias,Yanghai Tsin,Long Quan,Xun Cao,Yao Yao,Shiwei Li |
発行日 | 2025-02-11 16:36:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google