Leveraging Large (Visual) Language Models for Robot 3D Scene Understanding

要約

抽象的な意味論的な 3D シーンの理解は、ロボット工学において非常に重要な問題です。
ロボットには、家庭内の物品や平均的な人間の位置に関する常識的な知識がまだ欠けているため、私たちは、場面を理解するための常識を与えるために、事前に訓練された言語モデルの使用を研究しています。
言語のみ(ゼロショット、埋め込みベース、構造化言語)または視覚と言語(ゼロショットおよび微調整)を活用する幅広いシーン分類パラダイムを紹介し、比較します。
両方のカテゴリで最良のアプローチは $\sim 70\%$ の部屋分類精度をもたらし、純粋視覚分類器とグラフ分類器のパフォーマンスを上回ることがわかりました。
また、そのような方法は、言語の使用に起因する顕著な一般化と伝達能力を示していることもわかりました。

要約(オリジナル)

Abstract semantic 3D scene understanding is a problem of critical importance in robotics. As robots still lack the common-sense knowledge about household objects and locations of an average human, we investigate the use of pre-trained language models to impart common sense for scene understanding. We introduce and compare a wide range of scene classification paradigms that leverage language only (zero-shot, embedding-based, and structured-language) or vision and language (zero-shot and fine-tuned). We find that the best approaches in both categories yield $\sim 70\%$ room classification accuracy, exceeding the performance of pure-vision and graph classifiers. We also find such methods demonstrate notable generalization and transfer capabilities stemming from their use of language.

arxiv情報

著者 William Chen,Siyi Hu,Rajat Talak,Luca Carlone
発行日 2023-11-08 08:37:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG, cs.RO パーマリンク