要約
セマンティックローカライゼーション、つまりセマンティック画像モダリティによるロボットの自己ローカライゼーションは、最近出現した身体化型 AI アプリケーション (例: ポイント-ゴール ナビゲーション、オブジェクト-ゴール ナビゲーション、ビジョン言語ナビゲーション) やトポロジカル マッピング アプリケーション (例: グラフ ニューラル SLAM、
自己中心的なトポロジーマップ)。
しかし、セマンティックローカライゼーションに関する既存の研究のほとんどは、視点計画を行わずに受動的視覚タスクに焦点を当てているか、追加の豊富なモダリティ(深度測定など)に依存しています。
したがって、この問題はほとんど解決されていない。
この研究では、グラフ ニューラル ローカライザーと呼ばれる、軽量で完全に CPU ベースのドメイン適応型セマンティック ローカリゼーション フレームワークを調査します。
私たちのアプローチは、最近登場した 2 つのテクノロジーからインスピレーションを得ています。(1) シーン グラフ。ローカルおよびグローバル フィーチャの視点および外観の不変性を組み合わせます。
(2) グラフ ニューラル ネットワーク。グラフ データ (つまり、非ベクトル データ) の直接学習/認識を可能にします。
具体的には、グラフ畳み込みニューラル ネットワークは、まず受動的視覚のシーン グラフ分類子としてトレーニングされ、次にその知識が能動的視覚の強化学習プランナーに転送されます。
写真のようにリアルな生息地シミュレータを使用した、自己教師あり学習と教師なしドメイン適応という 2 つのシナリオに関する実験により、提案された方法の有効性が検証されます。
要約(オリジナル)
Semantic localization, i.e., robot self-localization with semantic image modality, is critical in recently emerging embodied AI applications (e.g., point-goal navigation, object-goal navigation, vision language navigation) and topological mapping applications (e.g., graph neural SLAM, ego-centric topological map). However, most existing works on semantic localization focus on passive vision tasks without viewpoint planning, or rely on additional rich modalities (e.g., depth measurements). Thus, the problem is largely unsolved. In this work, we explore a lightweight, entirely CPU-based, domain-adaptive semantic localization framework, called graph neural localizer. Our approach is inspired by two recently emerging technologies: (1) Scene graph, which combines the viewpoint- and appearance- invariance of local and global features; (2) Graph neural network, which enables direct learning/recognition of graph data (i.e., non-vector data). Specifically, a graph convolutional neural network is first trained as a scene graph classifier for passive vision, and then its knowledge is transferred to a reinforcement-learning planner for active vision. Experiments on two scenarios, self-supervised learning and unsupervised domain adaptation, using a photo-realistic Habitat simulator validate the effectiveness of the proposed method.
arxiv情報
著者 | Mitsuki Yoshida,Kanji Tanaka,Ryogo Yamamoto,Daiki Iwata |
発行日 | 2023-12-26 05:11:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google