Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model

要約

マルチモーダル大規模言語モデル (LLM) の最近の進歩により、さまざまな領域、特に概念推論においてその可能性が示されています。
これらの発展にもかかわらず、3D 環境を理解するためのアプリケーションは依然として限られています。
このペーパーでは、包括的な 3D の理解のために設計された新しい LLM である Reason3D を紹介します。
Reason3D は、点群データとテキスト プロンプトを入力として受け取り、テキスト応答とセグメンテーション マスクを生成し、3D 推論セグメンテーション、階層検索、エクスプレス参照、詳細なマスク出力による質問応答などの高度なタスクを容易にします。
具体的には、広大なシーン内の小さなオブジェクトの位置を特定するための階層マスク デコーダを提案します。
このデコーダは、最初に、オブジェクトの一般的な領域をカバーする大まかな位置推定を生成します。
この基礎的な推定により、粗いものから細かいものまでの詳細なセグメンテーション戦略が容易になり、オブジェクトの識別とセグメンテーションの精度が大幅に向上します。
実験では、Reason3D が、3D エクスプレス参照、3D 質問応答、および 3D 推論セグメンテーション タスクに関して、大規模な ScanNet および Matterport3D データセットで顕著な結果を達成することが検証されています。
コードとモデルは、https://github.com/KuanchihHuang/Reason3D で入手できます。

要約(オリジナル)

Recent advancements in multimodal large language models (LLMs) have shown their potential in various domains, especially concept reasoning. Despite these developments, applications in understanding 3D environments remain limited. This paper introduces Reason3D, a novel LLM designed for comprehensive 3D understanding. Reason3D takes point cloud data and text prompts as input to produce textual responses and segmentation masks, facilitating advanced tasks like 3D reasoning segmentation, hierarchical searching, express referring, and question answering with detailed mask outputs. Specifically, we propose a hierarchical mask decoder to locate small objects within expansive scenes. This decoder initially generates a coarse location estimate covering the object’s general area. This foundational estimation facilitates a detailed, coarse-to-fine segmentation strategy that significantly enhances the precision of object identification and segmentation. Experiments validate that Reason3D achieves remarkable results on large-scale ScanNet and Matterport3D datasets for 3D express referring, 3D question answering, and 3D reasoning segmentation tasks. Code and models are available at: https://github.com/KuanchihHuang/Reason3D.

arxiv情報

著者 Kuan-Chih Huang,Xiangtai Li,Lu Qi,Shuicheng Yan,Ming-Hsuan Yang
発行日 2024-05-27 17:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク