Open-Vocabulary Affordance Detection using Knowledge Distillation and Text-Point Correlation


これまでの研究では、3D オブジェクトの形状の複雑さ、現実世界のオブジェクトの潜在的なアフォーダンスの範囲の広さ、アフォーダンスを理解するためのオープンな語彙サポートの欠如などの制限に直面していました。
この論文では、知識の蒸留とテキストとポイントの相関を活用した、3D 点群における新しいオープン語彙アフォーダンス検出方法を紹介します。
私たちのアプローチでは、知識の蒸留を通じて事前トレーニングされた 3D モデルを採用し、3D 点群の特徴抽出と意味の理解を強化します。
特に、私たちの方法はベースラインと比較して 7.96% の mIOU スコアの改善を達成しました。


Affordance detection presents intricate challenges and has a wide range of robotic applications. Previous works have faced limitations such as the complexities of 3D object shapes, the wide range of potential affordances on real-world objects, and the lack of open-vocabulary support for affordance understanding. In this paper, we introduce a new open-vocabulary affordance detection method in 3D point clouds, leveraging knowledge distillation and text-point correlation. Our approach employs pre-trained 3D models through knowledge distillation to enhance feature extraction and semantic understanding in 3D point clouds. We further introduce a new text-point correlation method to learn the semantic links between point cloud features and open-vocabulary labels. The intensive experiments show that our approach outperforms previous works and adapts to new affordance labels and unseen objects. Notably, our method achieves the improvement of 7.96% mIOU score compared to the baselines. Furthermore, it offers real-time inference which is well-suitable for robotic manipulation applications.


著者 Tuan Van Vo,Minh Nhat Vu,Baoru Huang,Toan Nguyen,Ngan Le,Thieu Vo,Anh Nguyen
発行日 2023-09-19 21:08:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.RO パーマリンク