要約
大規模言語モデル (LLM) における前例のない進歩は、自然言語処理に大きな影響を与えていますが、3D 理解の領域はまだ完全には受け入れられていません。
このペーパーでは、このギャップを埋めるための予備的な取り組みである PointLLM を紹介します。これにより、LLM が点群を理解できるようになり、2D ビジュアル データを超える新しい手段が提供されます。
PointLLM は、人間の指示に従って色付きオブジェクトの点群を処理し、点群と常識の把握を示す、状況に応じて適切な応答を生成します。
具体的には、強力な LLM を備えた点群エンコーダを利用して、幾何学的情報、外観情報、および言語情報を効果的に融合します。
私たちは、660K の単純および 70K の複雑なポイントテキスト命令ペアで構成される新しいデータセットを収集し、最初に潜在空間を調整し、続いて統合モデルを命令チューニングするという 2 段階のトレーニング戦略を可能にします。
モデルの知覚能力と一般化能力を厳密に評価するために、生成 3D オブジェクト分類と 3D オブジェクト キャプションという 2 つのベンチマークを確立し、人間の評価、GPT-4/ChatGPT 評価、従来の指標を含む 3 つの異なる方法で評価しました。
実験結果は、PointLLM が既存の 2D ベースラインよりも優れたパフォーマンスを示していることを示しています。
注目すべきことに、人間が評価するオブジェクトキャプションタスクでは、サンプルの 50% 以上で PointLLM が人間のアノテーターよりも優れたパフォーマンスを示しています。
コード、データセット、ベンチマークは https://github.com/OpenRobotLab/PointLLM で入手できます。
要約(オリジナル)
The unprecedented advancements in Large Language Models (LLMs) have created a profound impact on natural language processing but are yet to fully embrace the realm of 3D understanding. This paper introduces PointLLM, a preliminary effort to fill this gap, thereby enabling LLMs to understand point clouds and offering a new avenue beyond 2D visual data. PointLLM processes colored object point clouds with human instructions and generates contextually appropriate responses, illustrating its grasp of point clouds and common sense. Specifically, it leverages a point cloud encoder with a powerful LLM to effectively fuse geometric, appearance, and linguistic information. We collect a novel dataset comprising 660K simple and 70K complex point-text instruction pairs to enable a two-stage training strategy: initially aligning latent spaces and subsequently instruction-tuning the unified model. To rigorously evaluate our model’s perceptual abilities and its generalization capabilities, we establish two benchmarks: Generative 3D Object Classification and 3D Object Captioning, assessed through three different methods, including human evaluation, GPT-4/ChatGPT evaluation, and traditional metrics. Experiment results show that PointLLM demonstrates superior performance over existing 2D baselines. Remarkably, in human-evaluated object captioning tasks, PointLLM outperforms human annotators in over 50% of the samples. Codes, datasets, and benchmarks are available at https://github.com/OpenRobotLab/PointLLM .
arxiv情報
著者 | Runsen Xu,Xiaolong Wang,Tai Wang,Yilun Chen,Jiangmiao Pang,Dahua Lin |
発行日 | 2023-08-31 17:59:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google