Open-Vocabulary Affordance Detection using Knowledge Distillation and Text-Point Correlation

要約

アフォーダンス検出には複雑な課題があり、幅広いロボット用途があります。
これまでの研究では、3D オブジェクトの形状の複雑さ、現実世界のオブジェクトの潜在的なアフォーダンスの範囲の広さ、アフォーダンスを理解するためのオープンな語彙サポートの欠如などの制限に直面していました。
この論文では、知識の蒸留とテキストとポイントの相関を活用した、3D 点群における新しいオープン語彙アフォーダンス検出方法を紹介します。
私たちのアプローチでは、知識の蒸留を通じて事前トレーニングされた 3D モデルを採用し、3D 点群の特徴抽出と意味の理解を強化します。
さらに、点群特徴とオープン語彙ラベルの間の意味論的なリンクを学習するための、新しいテキストと点の相関方法を導入します。
集中的な実験により、私たちのアプローチが以前の研究よりも優れており、新しいアフォーダンスラベルや目に見えないオブジェクトに適応できることがわかりました。
特に、私たちの方法はベースラインと比較して 7.96% の mIOU スコアの改善を達成しました。
さらに、ロボット操作アプリケーションに適したリアルタイム推論を提供します。

要約(オリジナル)

Affordance detection presents intricate challenges and has a wide range of robotic applications. Previous works have faced limitations such as the complexities of 3D object shapes, the wide range of potential affordances on real-world objects, and the lack of open-vocabulary support for affordance understanding. In this paper, we introduce a new open-vocabulary affordance detection method in 3D point clouds, leveraging knowledge distillation and text-point correlation. Our approach employs pre-trained 3D models through knowledge distillation to enhance feature extraction and semantic understanding in 3D point clouds. We further introduce a new text-point correlation method to learn the semantic links between point cloud features and open-vocabulary labels. The intensive experiments show that our approach outperforms previous works and adapts to new affordance labels and unseen objects. Notably, our method achieves the improvement of 7.96% mIOU score compared to the baselines. Furthermore, it offers real-time inference which is well-suitable for robotic manipulation applications.

arxiv情報

著者 Tuan Van Vo,Minh Nhat Vu,Baoru Huang,Toan Nguyen,Ngan Le,Thieu Vo,Anh Nguyen
発行日 2023-09-19 21:08:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク