PointLLM: Empowering Large Language Models to Understand Point Clouds

要約

大規模言語モデル(LLM)の前例のない進歩は、自然言語処理に多大な影響を与えたが、3D理解の領域を完全に受け入れるには至っていない。本論文では、このギャップを埋めるための予備的な取り組みであるPointLLMを紹介し、LLMが点群データを理解することを可能にし、2Dの視覚データを超える新たな道を提供する。PointLLMは、人間の指示によって色つきのオブジェクトの点群を理解し、文脈に応じた適切な応答を生成する。具体的には、点群エンコーダと強力なLLMを活用し、幾何学的情報、外観情報、言語情報を効果的に融合する。我々は、660Kの単純な点と70Kの複雑な点-テキスト指示の組からなる新しいデータセットを収集し、2段階の学習戦略を可能にする。PointLLMの知覚能力と汎化能力を厳密に評価するために、2つのベンチマークを設定する:生成的3Dオブジェクト分類と3Dオブジェクトキャプションングの2つのベンチマークを設定し、人間による評価、GPT-4/ChatGPT評価、従来の測定基準を含む3つの異なる方法で評価した。実験結果は、PointLLMが既存の2Dおよび3Dベースラインよりも優れた性能を持つことを明らかにし、特に人間評価によるオブジェクトキャプションのタスクでは、50%以上のサンプルで人間のアノテータを上回るという顕著な成果を挙げている。コード、データセット、ベンチマークは https://github.com/OpenRobotLab/PointLLM で入手可能。

要約(オリジナル)

The unprecedented advancements in Large Language Models (LLMs) have shown a profound impact on natural language processing but are yet to fully embrace the realm of 3D understanding. This paper introduces PointLLM, a preliminary effort to fill this gap, enabling LLMs to understand point clouds and offering a new avenue beyond 2D visual data. PointLLM understands colored object point clouds with human instructions and generates contextually appropriate responses, illustrating its grasp of point clouds and common sense. Specifically, it leverages a point cloud encoder with a powerful LLM to effectively fuse geometric, appearance, and linguistic information. We collect a novel dataset comprising 660K simple and 70K complex point-text instruction pairs to enable a two-stage training strategy: aligning latent spaces and subsequently instruction-tuning the unified model. To rigorously evaluate the perceptual and generalization capabilities of PointLLM, we establish two benchmarks: Generative 3D Object Classification and 3D Object Captioning, assessed through three different methods, including human evaluation, GPT-4/ChatGPT evaluation, and traditional metrics. Experimental results reveal PointLLM’s superior performance over existing 2D and 3D baselines, with a notable achievement in human-evaluated object captioning tasks where it surpasses human annotators in over 50% of the samples. Codes, datasets, and benchmarks are available at https://github.com/OpenRobotLab/PointLLM .

arxiv情報

著者 Runsen Xu,Xiaolong Wang,Tai Wang,Yilun Chen,Jiangmiao Pang,Dahua Lin
発行日 2023-12-01 07:55:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク