要約
3Dシーンの理解は、自然言語を介した相互作用を可能にするオープンボキャブラリー言語モデルによって変換されました。
ただし、これらの表現の評価は、言語の豊かさを捉えていないクローズドセットセマンティクスに限定されています。
この作業では、3Dオープンボキャブラリーシーンの表現を評価するための専用のベンチマークであるOpenLEX3Dを提示します。
OpenLEX3Dは、同義オブジェクトカテゴリと追加の微妙な説明を導入することにより、実際の言語の変動性をキャプチャするReplica、Scannet ++、およびHM3Dの23シーンのまったく新しいラベルアノテーションを提供します。
オープンセットの3Dセマンティックセグメンテーションタスクとオブジェクト検索タスクを導入することにより、機能の精度、セグメンテーション、およびダウンストリーム機能に関する洞察を提供します。
OpenLEX3Dで既存のさまざまな3Dオープンボキャブラリーメソッドを評価し、故障ケースを紹介し、改善の手段を評価します。
ベンチマークは、https://openlex3d.github.io/で公開されています。
要約(オリジナル)
3D scene understanding has been transformed by open-vocabulary language models that enable interaction via natural language. However, the evaluation of these representations is limited to closed-set semantics that do not capture the richness of language. This work presents OpenLex3D, a dedicated benchmark to evaluate 3D open-vocabulary scene representations. OpenLex3D provides entirely new label annotations for 23 scenes from Replica, ScanNet++, and HM3D, which capture real-world linguistic variability by introducing synonymical object categories and additional nuanced descriptions. By introducing an open-set 3D semantic segmentation task and an object retrieval task, we provide insights on feature precision, segmentation, and downstream capabilities. We evaluate various existing 3D open-vocabulary methods on OpenLex3D, showcasing failure cases, and avenues for improvement. The benchmark is publicly available at: https://openlex3d.github.io/.
arxiv情報
著者 | Christina Kassab,Sacha Morin,Martin Büchner,Matías Mattamala,Kumaraditya Gupta,Abhinav Valada,Liam Paull,Maurice Fallon |
発行日 | 2025-03-25 15:28:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google