GPT4Point: A Unified Framework for Point-Language Understanding and Generation

要約

マルチモーダル大規模言語モデル (MLLM) は、2D 画像テキストの理解と画像生成には優れていますが、3D 世界の理解が著しく不十分であり、3D 言語の理解と生成の進歩が制限されています。
この問題を解決するために、MLLM フレームワーク内での統合 3D オブジェクトの理解と生成のために特別に設計された革新的な画期的なポイント言語マルチモーダル モデルである GPT4Point を導入します。
GPT4Point は強力な 3D MLLM として、点群のキャプションや Q&A などのさまざまな点テキスト参照タスクをシームレスに実行できます。
さらに、GPT4Point には、制御可能な 3D 生成のための高度な機能が装備されており、幾何学的形状と色を維持しながら、低品質のポイントテキスト機能を通じて高品質の結果を得ることができます。
3D オブジェクトとテキストのペアの拡大するニーズをサポートするために、私たちはポイント言語データセット アノテーション エンジンである Pyramid-XL を開発しました。
GPT4Point のトレーニングに不可欠な、Objaverse-XL データセットからさまざまなテキスト粒度レベルの 100 万オブジェクトを超える大規模データベースを構築します。
3D ポイント言語理解能力を評価するための包括的なベンチマークが提案されています。
広範な評価において、GPT4Point は理解と生成において優れたパフォーマンスを実証しました。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have excelled in 2D image-text comprehension and image generation, but their understanding of the 3D world is notably deficient, limiting progress in 3D language understanding and generation. To solve this problem, we introduce GPT4Point, an innovative groundbreaking point-language multimodal model designed specifically for unified 3D object understanding and generation within the MLLM framework. GPT4Point as a powerful 3D MLLM seamlessly can execute a variety of point-text reference tasks such as point-cloud captioning and Q&A. Additionally, GPT4Point is equipped with advanced capabilities for controllable 3D generation, it can get high-quality results through a low-quality point-text feature maintaining the geometric shapes and colors. To support the expansive needs of 3D object-text pairs, we develop Pyramid-XL, a point-language dataset annotation engine. It constructs a large-scale database over 1M objects of varied text granularity levels from the Objaverse-XL dataset, essential for training GPT4Point. A comprehensive benchmark has been proposed to evaluate 3D point-language understanding capabilities. In extensive evaluations, GPT4Point has demonstrated superior performance in understanding and generation.

arxiv情報

著者 Zhangyang Qi,Ye Fang,Zeyi Sun,Xiaoyang Wu,Tong Wu,Jiaqi Wang,Dahua Lin,Hengshuang Zhao
発行日 2023-12-05 18:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク