Aerial Vision-and-Dialog Navigation

要約

人間と会話し、自然言語でコマンドに従う能力は、インテリジェントな無人航空機 (別名ドローン) にとって非常に重要です。
常にコントローラーを持っているという人々の負担を軽減し、マルチタスクを可能にし、障害のある人や手がふさがっている人がドローンの制御をより利用しやすくすることができます。
この目的のために、自然言語会話を介してドローンをナビゲートするために、Aerial Vision-and-Dialog Navigation (AVDN) を導入します。
継続的な写真のようにリアルな環境を備えたドローン シミュレーターを構築し、指揮官と従者の間の人間と人間の非同期対話を使用して、3,000 を超える記録されたナビゲーション軌跡の新しい AVDN データセットを収集します。
コマンダーは最初のナビゲーション指示とリクエストに応じたさらなるガイダンスを提供し、フォロワーはシミュレーターでドローンをナビゲートし、必要に応じて質問します。
データ収集中、ドローンの目視観察に対するフォロワーの注意も記録されます。
AVDN データセットに基づいて、(完全な) ダイアログ履歴から航空ナビゲーションのタスクを研究し、ナビゲーションのウェイポイントと人間の注意の両方を予測することを学習する、効果的な人間の注意支援 (HAA) ベースライン モデルを提案します。

要約(オリジナル)

The ability to converse with humans and follow commands in natural language is crucial for intelligent unmanned aerial vehicles (a.k.a. drones). It can relieve people’s burden of holding a controller all the time, allow multitasking, and make drone control more accessible for people with disabilities or with their hands occupied. To this end, we introduce Aerial Vision-and-Dialog Navigation (AVDN), to navigate a drone via natural language conversation. We build a drone simulator with a continuous photorealistic environment and collect a new AVDN dataset of over 3k recorded navigation trajectories with asynchronous human-human dialogs between commanders and followers. The commander provides initial navigation instruction and further guidance by request, while the follower navigates the drone in the simulator and asks questions when needed. During data collection, followers’ attention on the drone’s visual observation is also recorded. Based on the AVDN dataset, we study the tasks of aerial navigation from (full) dialog history and propose an effective Human Attention Aided (HAA) baseline model, which learns to predict both navigation waypoints and human attention.

arxiv情報

著者 Yue Fan,Winson Chen,Tongzhou Jiang,Chun Zhou,Yi Zhang,Xin Eric Wang
発行日 2022-11-14 12:33:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク