Transformer-based Localization from Embodied Dialog with Large-scale Pre-training

要約

私たちは、Embodied Dialog (LED) を介してローカリゼーションという困難なタスクに取り組みます。
未知の環境をナビゲートするオブザーバーと、オブザーバーの位置を特定しようとするロケーターの 2 つのエージェントからのダイアログが与えられた場合、目標は、マップ内のオブザーバーの最終的な位置を予測することです。
新しい LED-Bert アーキテクチャを開発し、効果的な事前トレーニング戦略を提示します。
グラフベースのシーン表現は、以前の作品で使用されたトップダウンの 2D マップよりも効果的であることを示しています。
私たちのアプローチは、以前のベースラインよりも優れています。

要約(オリジナル)

We address the challenging task of Localization via Embodied Dialog (LED). Given a dialog from two agents, an Observer navigating through an unknown environment and a Locator who is attempting to identify the Observer’s location, the goal is to predict the Observer’s final location in a map. We develop a novel LED-Bert architecture and present an effective pretraining strategy. We show that a graph-based scene representation is more effective than the top-down 2D maps used in prior works. Our approach outperforms previous baselines.

arxiv情報

著者 Meera Hahn,James M. Rehg
発行日 2022-10-10 17:25:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク