要約
最近登場したビジョンと言語ナビゲーション (VLN) タスクは、コンピューター ビジョンと自然言語処理コミュニティの両方で大きな注目を集めています。
既存の VLN タスクは、屋内または屋外の地上を移動するエージェント向けに構築されています。
しかし、いくつか例を挙げると、UAV ベースの商品配達、交通/警備パトロール、景観ツアーなど、多くのタスクではインテリジェント エージェントが空で実行する必要があります。
空でのナビゲーションは、エージェントが飛行高度とより複雑な空間関係の推論を考慮する必要があるため、地上よりも複雑です。
このギャップを埋め、この分野の研究を促進するために、私たちは、UAV ベースの屋外環境向けの AerialVLN という新しいタスクを提案します。
私たちは、25 の都市レベルのシナリオをほぼ現実的に表現した 3D シミュレーターを開発しています。
当社のシミュレーターは、継続的なナビゲーション、環境の拡張、構成をサポートしています。
また、広く使用されているクロスモーダル アライメント (CMA) ナビゲーション方法に基づいた拡張ベースライン モデルも提案しました。
ベースライン モデルと人間のパフォーマンスの間には依然として大きなギャップがあることがわかり、これは AerialVLN が新たな挑戦的なタスクであることを示唆しています。
データセットとコードは https://github.com/AirVLN/AirVLN で入手できます。
要約(オリジナル)
Recently emerged Vision-and-Language Navigation (VLN) tasks have drawn significant attention in both computer vision and natural language processing communities. Existing VLN tasks are built for agents that navigate on the ground, either indoors or outdoors. However, many tasks require intelligent agents to carry out in the sky, such as UAV-based goods delivery, traffic/security patrol, and scenery tour, to name a few. Navigating in the sky is more complicated than on the ground because agents need to consider the flying height and more complex spatial relationship reasoning. To fill this gap and facilitate research in this field, we propose a new task named AerialVLN, which is UAV-based and towards outdoor environments. We develop a 3D simulator rendered by near-realistic pictures of 25 city-level scenarios. Our simulator supports continuous navigation, environment extension and configuration. We also proposed an extended baseline model based on the widely-used cross-modal-alignment (CMA) navigation methods. We find that there is still a significant gap between the baseline model and human performance, which suggests AerialVLN is a new challenging task. Dataset and code is available at https://github.com/AirVLN/AirVLN.
arxiv情報
著者 | Shubo Liu,Hongsheng Zhang,Yuankai Qi,Peng Wang,Yaning Zhang,Qi Wu |
発行日 | 2023-08-13 09:55:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google