3D-TAFS: A Training-free Framework for 3D Affordance Segmentation


高レベルの言語命令を物理世界での正確なロボット動作に変換することは、特に 3D オブジェクトとの対話の実現可能性を考慮した場合、依然として困難です。
このペーパーでは、3D アフォーダンス セグメンテーションのための新しいトレーニング不要のマルチモーダル フレームワークである 3D-TAFS を、日常環境におけるインタラクティブな言語ガイドによるアフォーダンスを評価するためのベンチマークとともに紹介します。
特に、当社のフレームワークは大規模なマルチモーダル モデルと特殊な 3D ビジョン ネットワークを統合し、2D および 3D の視覚的理解と言語理解のシームレスな融合を可能にします。
評価を容易にするために、10 の典型的な屋内環境のデータセットを提示します。各環境には、オブジェクトのアクションと 3D アフォーダンス セグメンテーションの注釈が付けられた 50 枚の画像が含まれています。
広範な実験により、提案された 3D-TAFS の、さまざまな設定にわたるインタラクティブな 3D アフォーダンス セグメンテーション タスクの処理能力が検証され、さまざまな指標にわたって競争力のあるパフォーマンスが実証されています。


Translating high-level linguistic instructions into precise robotic actions in the physical world remains challenging, particularly when considering the feasibility of interacting with 3D objects. In this paper, we introduce 3D-TAFS, a novel training-free multimodal framework for 3D affordance segmentation, alongside a benchmark for evaluating interactive language-guided affordance in everyday environments. In particular, our framework integrates a large multimodal model with a specialized 3D vision network, enabling seamless fusion of 2D and 3D visual understanding with language comprehension. To facilitate evaluation, we present a dataset of ten typical indoor environments, each with 50 images annotated for object actions and 3D affordance segmentation. Extensive experiments validate the proposed 3D-TAFS’s capability in handling interactive 3D affordance segmentation tasks across diverse settings, showcasing competitive performance across various metrics. Our results highlight 3D-TAFS’s potential for enhancing human-robot interaction based on affordance understanding in complex indoor environments, advancing the development of more intuitive and efficient robotic frameworks for real-world applications.


著者 Meng Chu,Xuan Zhang,Zhedong Zheng,Tat-Seng Chua
発行日 2024-10-22 15:53:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク