要約
画像やテキストの表現をスケールアップすることは、ここ数年で広範囲に研究されており、視覚と言語の学習に革命をもたらしました。
ただし、3D オブジェクトとシーンのスケーラブルな表現は比較的未開発です。
この研究では、大規模な統合 3D 表現を探索するための 3D 基礎モデルである Uni3D を紹介します。
Uni3D は、3D 点群フィーチャを画像テキストに位置合わせされたフィーチャと位置合わせするために、エンドツーエンドで事前トレーニングされた 2D 初期化 ViT を使用します。
シンプルなアーキテクチャと口実タスクを介して、Uni3D は豊富な 2D 事前トレーニング済みモデルを初期化として、また画像とテキストが配置されたモデルをターゲットとして活用し、2D モデルの大きな可能性と 3D 世界へのスケールアップ戦略を解き放つことができます。
Uni3D を 10 億パラメータまで効率的にスケールアップし、ゼロショット分類、少数ショット分類、オープンワールドの理解、パーツのセグメンテーションなど、幅広い 3D タスクで新記録を樹立しました。
強力な Uni3D 表現により、3D ペインティングや野外での検索などのアプリケーションも可能になることを示します。
私たちは、Uni3D が 3D ドメインでの表現のスケールアップと効率性の両方を探求するための新しい方向性を提供すると信じています。
要約(オリジナル)
Scaling up representations for images or text has been extensively investigated in the past few years and has led to revolutions in learning vision and language. However, scalable representation for 3D objects and scenes is relatively unexplored. In this work, we present Uni3D, a 3D foundation model to explore the unified 3D representation at scale. Uni3D uses a 2D initialized ViT end-to-end pretrained to align the 3D point cloud features with the image-text aligned features. Via the simple architecture and pretext task, Uni3D can leverage abundant 2D pretrained models as initialization and image-text aligned models as the target, unlocking the great potential of 2D models and scaling-up strategies to the 3D world. We efficiently scale up Uni3D to one billion parameters, and set new records on a broad range of 3D tasks, such as zero-shot classification, few-shot classification, open-world understanding and part segmentation. We show that the strong Uni3D representation also enables applications such as 3D painting and retrieval in the wild. We believe that Uni3D provides a new direction for exploring both scaling up and efficiency of the representation in 3D domain.
arxiv情報
著者 | Junsheng Zhou,Jinsheng Wang,Baorui Ma,Yu-Shen Liu,Tiejun Huang,Xinlong Wang |
発行日 | 2023-10-10 16:49:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google