Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following

要約

我々は、点群データを2次元画像、言語、音声、動画像と整合させる3次元マルチモダリティ・モデル、Point-Bindを紹介する。ImageBindに導かれて、我々は3Dとマルチモダリティ間の共同埋め込み空間を構築し、例えば、any-to-3D生成、3D埋め込み演算、3Dオープンワールド理解など、多くの有望な応用を可能にする。さらに、3次元マルチモーダル命令に従う初の3次元大規模言語モデル(LLM)であるPoint-LLMを紹介する。Point-LLMは、パラメータ効率的な微調整技術により、Point-Bindのセマンティクスを事前学習済みのLLM、例えばLLaMAに注入し、3D命令データを必要としないが、優れた3Dおよびマルチモーダル質問応答能力を示す。我々の研究が、3D点群をマルチモダリティ・アプリケーションに拡張するためのコミュニティに光を投げかけることを期待している。コードはhttps://github.com/ZiyuGuo99/Point-Bind_Point-LLM。

要約(オリジナル)

We introduce Point-Bind, a 3D multi-modality model aligning point clouds with 2D image, language, audio, and video. Guided by ImageBind, we construct a joint embedding space between 3D and multi-modalities, enabling many promising applications, e.g., any-to-3D generation, 3D embedding arithmetic, and 3D open-world understanding. On top of this, we further present Point-LLM, the first 3D large language model (LLM) following 3D multi-modal instructions. By parameter-efficient fine-tuning techniques, Point-LLM injects the semantics of Point-Bind into pre-trained LLMs, e.g., LLaMA, which requires no 3D instruction data, but exhibits superior 3D and multi-modal question-answering capacity. We hope our work may cast a light on the community for extending 3D point clouds to multi-modality applications. Code is available at https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.

arxiv情報

著者 Ziyu Guo,Renrui Zhang,Xiangyang Zhu,Yiwen Tang,Xianzheng Ma,Jiaming Han,Kexin Chen,Peng Gao,Xianzhi Li,Hongsheng Li,Pheng-Ann Heng
発行日 2023-09-01 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM パーマリンク