要約
ロボティクスとコンピューター ビジョンの分野では、複雑な環境を理解し、相互作用できるインテリジェント マシンに対する需要が高まっているため、効率的かつ正確なセマンティック マッピングが依然として大きな課題となっています。
しかし、従来のパノプティック マッピング方法は、事前定義されたセマンティック クラスによって制限されているため、新しいオブジェクトや予期しないオブジェクトを処理するのには効果的ではありません。
この制限に対応して、Unified Promptable Panoptic Mapping (UPPM) メソッドを導入します。
UPPM は基礎モデルの最近の進歩を利用して、自然言語プロンプトを使用したリアルタイムのオンデマンドのラベル生成を可能にします。
従来のパノプティック マッピング技術に動的ラベル付け戦略を組み込むことにより、UPPM はマップ再構築の高いパフォーマンス レベルを維持しながら、適応性と汎用性を大幅に向上させます。
現実世界のデータセットとシミュレートされたデータセットに対するアプローチを示します。
結果は、UPPM が自然言語対話を通じて豊富な意味ラベルを生成しながら、シーンを正確に再構築し、オブジェクトをセグメント化できることを示しています。
一連のアブレーション実験により、固定ラベル セットに対する基礎モデルベースのラベル付けの利点が検証されました。
要約(オリジナル)
In the field of robotics and computer vision, efficient and accurate semantic mapping remains a significant challenge due to the growing demand for intelligent machines that can comprehend and interact with complex environments. Conventional panoptic mapping methods, however, are limited by predefined semantic classes, thus making them ineffective for handling novel or unforeseen objects. In response to this limitation, we introduce the Unified Promptable Panoptic Mapping (UPPM) method. UPPM utilizes recent advances in foundation models to enable real-time, on-demand label generation using natural language prompts. By incorporating a dynamic labeling strategy into traditional panoptic mapping techniques, UPPM provides significant improvements in adaptability and versatility while maintaining high performance levels in map reconstruction. We demonstrate our approach on real-world and simulated datasets. Results show that UPPM can accurately reconstruct scenes and segment objects while generating rich semantic labels through natural language interactions. A series of ablation experiments validated the advantages of foundation model-based labeling over fixed label sets.
arxiv情報
著者 | Mohamad Al Mdfaa,Raghad Salameh,Sergey Zagoruyko,Gonzalo Ferrer |
発行日 | 2024-10-10 16:03:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google