Layout-aware Dreamer for Embodied Referring Expression Grounding

要約

本研究では、エージェントが未知の環境をナビゲートし、簡潔な高レベル自然言語命令によって記述された遠隔オブジェクトを特定する必要がある、体現された参照表現の接地問題を研究する。このような状況に直面したとき、人間は目的地の様子を想像し、キッチンよりも寝室の近くにバスルームがある可能性が高いといった、環境レイアウトの事前知識に基づいて環境を探索する傾向がある。我々は、この認知的判断過程を模倣するために、レイアウト学習器とゴール学習器の2つの新規モジュールを含む、レイアウト認識夢想家(LAD)と呼ばれる自律エージェントを設計しました。レイアウト学習器は、経路上の隣接する未探索領域の部屋カテゴリ分布を学習し、粗いレイアウト推定を行う。これは、部屋から部屋への遷移に関するレイアウトの常識をエージェントに効果的に導入する。また、効率的な探索方法を学習するために、ゴール夢想家はあらかじめ目的地を想像しておく。本エージェントは、REVERIEデータセットのパブリックリーダーボードにおいて、未知のテスト環境において、ナビゲーション成功率(SR)4.02%、リモート接地成功率(RGS)3.43%と、従来の最先端性能に比べ向上させることに成功しました。コードは https://github.com/zehao-wang/LAD で公開されています。

要約(オリジナル)

In this work, we study the problem of Embodied Referring Expression Grounding, where an agent needs to navigate in a previously unseen environment and localize a remote object described by a concise high-level natural language instruction. When facing such a situation, a human tends to imagine what the destination may look like and to explore the environment based on prior knowledge of the environmental layout, such as the fact that a bathroom is more likely to be found near a bedroom than a kitchen. We have designed an autonomous agent called Layout-aware Dreamer (LAD), including two novel modules, that is, the Layout Learner and the Goal Dreamer to mimic this cognitive decision process. The Layout Learner learns to infer the room category distribution of neighboring unexplored areas along the path for coarse layout estimation, which effectively introduces layout common sense of room-to-room transitions to our agent. To learn an effective exploration of the environment, the Goal Dreamer imagines the destination beforehand. Our agent achieves new state-of-the-art performance on the public leaderboard of the REVERIE dataset in challenging unseen test environments with improvement in navigation success (SR) by 4.02% and remote grounding success (RGS) by 3.43% compared to the previous state-of-the-art. The code is released at https://github.com/zehao-wang/LAD

arxiv情報

著者 Mingxiao Li,Zehao Wang,Tinne Tuytelaars,Marie-Francine Moens
発行日 2022-12-02 16:00:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク