Reasoning3D — Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models

要約

このペーパーでは、新しいタスクを紹介します。部品の検索とオブジェクトの位置特定のためのゼロショット 3D 推論セグメンテーションです。これは、以前のカテゴリ固有の 3D セマンティック セグメンテーション、3D インスタンス セグメンテーション、オープンな 3D セグメンテーションの制限を超える 3D セグメンテーションの新しいパラダイムです。
-語彙の 3D セグメンテーション。
私たちは、インタラクティブなセグメンテーションのためのコンテキスト認識と推論された回答を備えた 3D メッシュの特定のパーツを (きめ細かく) セグメンテーションするための複雑なコマンドを理解して実行する機能を備えた、シンプルなベースライン メソッド Reasoning3D を設計します。
具体的には、Reasoning3D は、ラージ言語モデル (LLM) を活用した既製の事前トレーニング済み 2D セグメンテーション ネットワークを利用して、ユーザー入力クエリをゼロショット方式で解釈します。
これまでの研究では、広範な事前トレーニングによって基盤モデルに事前世界知識が与えられ、複雑なコマンドを理解できるようになり、限られた 3D データセット (ソース効率的) で 3D で「何かをセグメント化する」ために活用できる機能が示されています。
実験の結果、私たちのアプローチは一般化可能であり、これらの関節化された 3D オブジェクトや実世界のスキャン データなどの暗黙的なテキスト クエリに基づいて、(3D メッシュ内の) 3D オブジェクトの一部を効果的に位置特定して強調表示できることが明らかになりました。
私たちの手法は、これらの 3D モデルと分解に対応する自然言語説明を生成することもできます。
さらに、当社のトレーニング不要のアプローチは迅速な展開を可能にし、ロボット工学、オブジェクト操作、部品アセンブリ、自動運転アプリケーション、拡張現実、仮想などのさまざまな分野における部品レベルの 3D (セマンティック) オブジェクト理解の将来の研究のための実行可能な普遍的なベースラインとして機能します。
現実(AR/VR)および医療アプリケーション。
コード、モデルの重み、導入ガイド、および評価プロトコルは次のとおりです: http://tianrun-chen.github.io/Reason3D/

要約(オリジナル)

In this paper, we introduce a new task: Zero-Shot 3D Reasoning Segmentation for parts searching and localization for objects, which is a new paradigm to 3D segmentation that transcends limitations for previous category-specific 3D semantic segmentation, 3D instance segmentation, and open-vocabulary 3D segmentation. We design a simple baseline method, Reasoning3D, with the capability to understand and execute complex commands for (fine-grained) segmenting specific parts for 3D meshes with contextual awareness and reasoned answers for interactive segmentation. Specifically, Reasoning3D leverages an off-the-shelf pre-trained 2D segmentation network, powered by Large Language Models (LLMs), to interpret user input queries in a zero-shot manner. Previous research have shown that extensive pre-training endows foundation models with prior world knowledge, enabling them to comprehend complex commands, a capability we can harness to ‘segment anything’ in 3D with limited 3D datasets (source efficient). Experimentation reveals that our approach is generalizable and can effectively localize and highlight parts of 3D objects (in 3D mesh) based on implicit textual queries, including these articulated 3d objects and real-world scanned data. Our method can also generate natural language explanations corresponding to these 3D models and the decomposition. Moreover, our training-free approach allows rapid deployment and serves as a viable universal baseline for future research of part-level 3d (semantic) object understanding in various fields including robotics, object manipulation, part assembly, autonomous driving applications, augment reality and virtual reality (AR/VR), and medical applications. The code, the model weight, the deployment guide, and the evaluation protocol are: http://tianrun-chen.github.io/Reason3D/

arxiv情報

著者 Tianrun Chen,Chunan Yu,Jing Li,Jianqi Zhang,Lanyun Zhu,Deyi Ji,Yong Zhang,Ying Zang,Zejian Li,Lingyun Sun
発行日 2024-05-29 17:56:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.HC パーマリンク