Leveraging YOLO-World and GPT-4V LMMs for Zero-Shot Person Detection and Action Recognition in Drone Imagery

要約

この記事では、ドローン知覚の領域におけるゼロショット大型マルチモーダル モデル (LMM) の可能性を探ります。
私たちは人物検出と行動認識タスクに焦点を当て、航空写真からキャプチャされた公開されているデータセットを使用して、YOLO-World と GPT-4V(ision) という 2 つの著名な LMM を評価します。
従来の深層学習アプローチは、大規模で高品質のトレーニング データセットに大きく依存しています。
ただし、特定のロボット設定では、そのようなデータセットの取得はリソースを大量に消費するか、妥当な時間枠内で非現実的になる可能性があります。
プロンプトベースの大規模マルチモーダル モデル (LMM) の柔軟性とその卓越した一般化機能には、これらのシナリオにおけるロボット工学アプリケーションに革命をもたらす可能性があります。
私たちの調査結果は、YOLO-World が優れた検出パフォーマンスを示していることを示唆しています。
GPT-4V は、アクション クラスを正確に分類することに苦労していますが、不要な領域の提案を除外し、シーンの一般的な説明を提供するという点では有望な結果をもたらします。
この研究は、ドローン認識に LMM を活用するための最初のステップを表し、この分野での将来の研究の基礎を確立します。

要約(オリジナル)

In this article, we explore the potential of zero-shot Large Multimodal Models (LMMs) in the domain of drone perception. We focus on person detection and action recognition tasks and evaluate two prominent LMMs, namely YOLO-World and GPT-4V(ision) using a publicly available dataset captured from aerial views. Traditional deep learning approaches rely heavily on large and high-quality training datasets. However, in certain robotic settings, acquiring such datasets can be resource-intensive or impractical within a reasonable timeframe. The flexibility of prompt-based Large Multimodal Models (LMMs) and their exceptional generalization capabilities have the potential to revolutionize robotics applications in these scenarios. Our findings suggest that YOLO-World demonstrates good detection performance. GPT-4V struggles with accurately classifying action classes but delivers promising results in filtering out unwanted region proposals and in providing a general description of the scenery. This research represents an initial step in leveraging LMMs for drone perception and establishes a foundation for future investigations in this area.

arxiv情報

著者 Christian Limberg,Artur Gonçalves,Bastien Rigault,Helmut Prendinger
発行日 2024-04-02 02:07:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク