Active Semantic Localization with Graph Neural Embedding

要約

意味的定位、すなわち意味的画像モダリティを用いたロボットの自己定位は、ポイントゴールナビゲーション、オブジェクトゴールナビゲーション、視覚言語ナビゲーションといった最近出現した具現化AIアプリケーションにおいて重要である。しかし、意味的定位に関する既存の研究のほとんどは、視点計画を伴わない受動的な視覚タスクに焦点を当て、または追加の豊富なモダリティ(例えば、深度測定)に依存しています。したがって、この問題はほとんど未解決である。本研究では、グラフニューラルローカライザーと呼ばれる、CPUベースの軽量かつ領域適応的な意味的定位フレームワークを探求する。我々のアプローチは、最近登場した2つの技術に触発されている:(1)シーングラフ、これは局所およびグローバルな特徴の視点および外観不変性を結合する。具体的には、まず受動的な視覚のためのシーングラフ分類器としてグラフ畳み込みニューラルネットワークを学習させ、その知識を能動的な視覚のための強化学習プランナーへ転送している。自己教師あり学習と教師なし領域適応の2つのシナリオについて、フォトリアリスティックハビタットシミュレータを用いた実験により、提案手法の有効性を検証する。

要約(オリジナル)

Semantic localization, i.e., robot self-localization with semantic image modality, is critical in recently emerging embodied AI applications such as point-goal navigation, object-goal navigation and vision language navigation. However, most existing works on semantic localization focus on passive vision tasks without viewpoint planning, or rely on additional rich modalities (e.g., depth measurements). Thus, the problem is largely unsolved. In this work, we explore a lightweight, entirely CPU-based, domain-adaptive semantic localization framework, called graph neural localizer.Our approach is inspired by two recently emerging technologies: (1) Scene graph, which combines the viewpoint- and appearance- invariance of local and global features; (2) Graph neural network, which enables direct learning/recognition of graph data (i.e., non-vector data). Specifically, a graph convolutional neural network is first trained as a scene graph classifier for passive vision, and then its knowledge is transferred to a reinforcement-learning planner for active vision. Experiments on two scenarios, self-supervised learning and unsupervised domain adaptation, using a photo-realistic Habitat simulator validate the effectiveness of the proposed method.

arxiv情報

著者 Mitsuki Yoshida,Kanji Tanaka,Ryogo Yamamoto,Daiki Iwata
発行日 2023-05-12 04:21:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク