MapBERT: Bitwise Masked Modeling for Real-Time Semantic Mapping Generation

要約

空間認識は、具体化されたエージェントにとって重要な機能であり、観察されていない地域について予測し、推論することができるためです。
主な課題は、まばらで不均衡なオブジェクトカテゴリと多様な空間スケールによって複雑になっている屋内セマンティクスの分布を学ぶことから生じます。
既存の方法は、観察されていない領域をリアルタイムで堅牢に生成するために苦労し、新しい環境によく一般化することはありません。
この目的のために、目に見えない空間の分布を効果的にモデル化するように設計された新しいフレームワークである\ textBf {Mapbert}を提案します。
セマンティックマップの1ホットのエンコードは、ビットエンコードのバイナリ構造と自然に整合するという観察に動機付けられているため、初めてルックアップフリービットベーを活用してセマンティックマップをコンパクトビットワイズトークンにエンコードします。
これに基づいて、マスクされた変圧器が使用されており、欠落している領域を推測し、限られた観測から完全なセマンティックマップを生成します。
オブジェクト中心の推論を強化するために、オブジェクトカテゴリ全体を同時にマスクし、学習可能な埋め込みでペアを組み、オブジェクトの埋め込みと空間トークンの間の暗黙の関係をキャプチャするオブジェクト認識マスキング戦略を提案します。
これらの関係を学ぶことにより、このモデルは、実用的なロボットタスクに不可欠な屋内セマンティック分布をより効果的にキャプチャします。
ギブソンのベンチマークでの実験は、Mapbertが最先端のセマンティックマップ生成を達成し、計算効率と観測されていない領域の正確な再構築のバランスをとることを示しています。

要約(オリジナル)

Spatial awareness is a critical capability for embodied agents, as it enables them to anticipate and reason about unobserved regions. The primary challenge arises from learning the distribution of indoor semantics, complicated by sparse, imbalanced object categories and diverse spatial scales. Existing methods struggle to robustly generate unobserved areas in real time and do not generalize well to new environments. To this end, we propose \textbf{MapBERT}, a novel framework designed to effectively model the distribution of unseen spaces. Motivated by the observation that the one-hot encoding of semantic maps aligns naturally with the binary structure of bit encoding, we, for the first time, leverage a lookup-free BitVAE to encode semantic maps into compact bitwise tokens. Building on this, a masked transformer is employed to infer missing regions and generate complete semantic maps from limited observations. To enhance object-centric reasoning, we propose an object-aware masking strategy that masks entire object categories concurrently and pairs them with learnable embeddings, capturing implicit relationships between object embeddings and spatial tokens. By learning these relationships, the model more effectively captures indoor semantic distributions crucial for practical robotic tasks. Experiments on Gibson benchmarks show that MapBERT achieves state-of-the-art semantic map generation, balancing computational efficiency with accurate reconstruction of unobserved regions.

arxiv情報

著者 Yijie Deng,Shuaihang Yuan,Congcong Wen,Hao Huang,Anthony Tzes,Geeta Chandra Raju Bethala,Yi Fang
発行日 2025-06-09 01:55:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク