要約
人間中心の環境におけるロボットは、高レベルのタスクを効果的に実行するために、シーンを正確に理解する必要があります。
この理解は、個々のインスタンスのレベルで要素を再構築することを含む、インスタンスを意識したセマンティック マッピングを通じて実現できます。
シーン理解のための事実上のソリューションであるニューラル ネットワークは、分布外のオブジェクトに対する過信による不正確な予測や、不正確なマスクの生成などの制限に依然として直面しています。これらの予測に過度に依存すると、再構築にエラーが発生しやすくなり、結果のロバスト性が低下します。
マップを作成し、ロボットの動作を妨げます。
この研究では、インスタンスを認識したセマンティック マップを段階的に構築するための確率的フレームワークである Voxeland を提案します。
Voxeland は証拠理論に触発され、ニューラル ネットワークの予測を幾何学的レベルと意味論的なレベルの両方でマップ インスタンスに関する主観的な意見として扱います。
これらの意見は時間の経過とともに集約されて証拠が形成され、確率モデルを通じて形式化されます。
これにより、再構成プロセスの不確実性を定量化できるようになり、改善が必要な地図領域の特定 (再観察や再分類など) が容易になります。
これを利用する戦略の 1 つとして、不確実性の高いインスタンスに対して意味レベルの曖昧さの解消を行うために、Large Vision-Language Model (LVLM) を組み込みます。
公開されている SceneNN データセットの標準ベンチマークの結果は、Voxeland が最先端の手法を上回るパフォーマンスを示し、インスタンス レベルとセマンティック レベルの不確実性の両方を組み込んで活用して再構築の堅牢性を高める利点を強調しています。
これは、現実世界の ScanNet データセットに対して行われた定性実験を通じてさらに検証されています。
要約(オリジナル)
Robots in human-centered environments require accurate scene understanding to perform high-level tasks effectively. This understanding can be achieved through instance-aware semantic mapping, which involves reconstructing elements at the level of individual instances. Neural networks, the de facto solution for scene understanding, still face limitations such as overconfident incorrect predictions with out-of-distribution objects or generating inaccurate masks.Placing excessive reliance on these predictions makes the reconstruction susceptible to errors, reducing the robustness of the resulting maps and hampering robot operation. In this work, we propose Voxeland, a probabilistic framework for incrementally building instance-aware semantic maps. Inspired by the Theory of Evidence, Voxeland treats neural network predictions as subjective opinions regarding map instances at both geometric and semantic levels. These opinions are aggregated over time to form evidences, which are formalized through a probabilistic model. This enables us to quantify uncertainty in the reconstruction process, facilitating the identification of map areas requiring improvement (e.g. reobservation or reclassification). As one strategy to exploit this, we incorporate a Large Vision-Language Model (LVLM) to perform semantic level disambiguation for instances with high uncertainty. Results from the standard benchmarking on the publicly available SceneNN dataset demonstrate that Voxeland outperforms state-of-the-art methods, highlighting the benefits of incorporating and leveraging both instance- and semantic-level uncertainties to enhance reconstruction robustness. This is further validated through qualitative experiments conducted on the real-world ScanNet dataset.
arxiv情報
著者 | Jose-Luis Matez-Bandera,Pepe Ojeda,Javier Monroy,Javier Gonzalez-Jimenez,Jose-Raul Ruiz-Sarmiento |
発行日 | 2024-11-13 16:09:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google