3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds

要約

3Dアフォーダンス検出は、さまざまなロボットタスクに関する幅広いアプリケーションの困難な問題です。
既存の方法は、通常、ラベルベースのセマンティックセグメンテーションタスクとして検出パラダイムを定式化します。
このパラダイムは、事前に定義されたラベルに依存しており、複雑な自然言語を理解する能力が欠けており、その結果、オープンワールドシーンの一般化は限られています。
これらの制限に対処するために、従来のアフォーダンス検出パラダイムを\ textIT {命令の推論アフォーダンスセグメンテーション}(IRAS)タスクに再定式化します。
このタスクは、入力ラベルの固定カテゴリを回避するクエリ推論テキストを考慮して、アフォーダンスマスク領域を出力するように設計されています。
それに応じて、3Dオープンシーンでアフォーダンス検出を推論するために設計されたフレームワークである\ textit {3d-abbordancellm}(3d-adllm)を提案します。
具体的には、3D-ADLLMは、アフォーダンスマスクを生成するためのカスタム設計のデコーダーを使用して、大規模な言語モデル(LLMS)を3Dアフォーダンス認識に導入し、オープンワールドの推論アフォーダンス検出を達成します。
さらに、大規模なモデルをトレーニングするための3Dアフォーダンスデータセットの希少性を考えると、一般的なセグメンテーションデータから知識を抽出し、アフォーダンス検出に転送しようとします。
したがって、新しいトレーニング前タスク、つまり\ textIT {refering object Part Segmentation}〜(ROPS)から始まるマルチステージトレーニング戦略を提案します。
この段階は、オブジェクトパートレベルで一般的な認識とセグメンテーション機能をモデルに装備するように設計されています。
その後、IRASタスクで微調整された後、3D-Adllmはアフォーダンス検出の推論能力を獲得します。
要約すると、3D-ADLLMは、LLMSの豊かな世界の知識と人間とオブジェクトの相互作用推論能力を活用しており、オープンホキャブラリーアフォーダンス検出タスクでMIOUで約8 \%の改善を達成しています。

要約(オリジナル)

3D Affordance detection is a challenging problem with broad applications on various robotic tasks. Existing methods typically formulate the detection paradigm as a label-based semantic segmentation task. This paradigm relies on predefined labels and lacks the ability to comprehend complex natural language, resulting in limited generalization in open-world scene. To address these limitations, we reformulate the traditional affordance detection paradigm into \textit{Instruction Reasoning Affordance Segmentation} (IRAS) task. This task is designed to output a affordance mask region given a query reasoning text, which avoids fixed categories of input labels. We accordingly propose the \textit{3D-AffordanceLLM} (3D-ADLLM), a framework designed for reasoning affordance detection in 3D open-scene. Specifically, 3D-ADLLM introduces large language models (LLMs) to 3D affordance perception with a custom-designed decoder for generating affordance masks, thus achieving open-world reasoning affordance detection. In addition, given the scarcity of 3D affordance datasets for training large models, we seek to extract knowledge from general segmentation data and transfer it to affordance detection. Thus, we propose a multi-stage training strategy that begins with a novel pre-training task, i.e., \textit{Referring Object Part Segmentation}~(ROPS). This stage is designed to equip the model with general recognition and segmentation capabilities at the object-part level. Then followed by fine-tuning with the IRAS task, 3D-ADLLM obtains the reasoning ability for affordance detection. In summary, 3D-ADLLM leverages the rich world knowledge and human-object interaction reasoning ability of LLMs, achieving approximately an 8\% improvement in mIoU on open-vocabulary affordance detection tasks.

arxiv情報

著者 Hengshuo Chu,Xiang Deng,Qi Lv,Xiaoyang Chen,Yinchuan Li,Jianye Hao,Liqiang Nie
発行日 2025-03-03 06:21:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク