Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatially Relation Matching

要約

自然言語コマンドによるドローンのナビゲーションは、公的に利用可能なマルチモーダル データセットの欠如と、きめ細かいビジュアルテキストの配置という複雑な要求により、依然として大きな課題となっています。
この差し迫ったニーズに応えて、GeoText-1652 と呼ばれる新しいヒューマン コンピューター インタラクション アノテーション ベンチマークを紹介します。このベンチマークは、堅牢なラージ言語モデル (LLM) ベースのデータ生成フレームワークと事前トレーニングされたビジョン モデルの専門知識を通じて細心の注意を払って精選されています。
この新しいデータセットは、既存の画像データセット、つまり University-1652 を空間認識テキスト注釈でシームレスに拡張し、複雑な画像とテキストの境界ボックスの関連付けを包含します。
さらに、領域レベルの空間関係マッチングにブレンディング空間マッチングと呼ばれる、きめの細かい空間関連を活用する新しい最適化目標を導入します。
広範な実験により、私たちのアプローチがさまざまな記述の複雑さの下で例外的な再現率を維持することが明らかになりました。
これは、現実世界のシナリオにおける自然言語コマンドのシームレスな統合を通じて、ドローンの制御とナビゲーションを向上させるという当社のアプローチの有望な可能性を強調しています。

要約(オリジナル)

Drone navigation through natural language commands remains a significant challenge due to the lack of publicly available multi-modal datasets and the intricate demands of fine-grained visual-text alignment. In response to this pressing need, we present a new human-computer interaction annotation benchmark called GeoText-1652, meticulously curated through a robust Large Language Model (LLM)-based data generation framework and the expertise of pre-trained vision models. This new dataset seamlessly extends the existing image dataset, \ie, University-1652, with spatial-aware text annotations, encompassing intricate image-text-bounding box associations. Besides, we introduce a new optimization objective to leverage fine-grained spatial associations, called blending spatial matching, for region-level spatial relation matching. Extensive experiments reveal that our approach maintains an exceptional recall rate under varying description complexities. This underscores the promising potential of our approach in elevating drone control and navigation through the seamless integration of natural language commands in real-world scenarios.

arxiv情報

著者 Meng Chu,Zhedong Zheng,Wei Ji,Tat-Seng Chua
発行日 2023-11-21 17:52:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク