要約
自律航空監視は、人間が簡単にアクセスできない地域から情報を収集することを目的とした重要なタスクです。
同時に、このタスクは、多くの場合、かなりの距離から異常を認識するか、過去に以前に遭遇しなかったことを認識する必要があります。
この論文では、大規模な言語モデル(LLM)が提供する高度な機能を活用して、情報を積極的に収集し、新しいシーンで異常検出を実行する新しいフレームワークを提案します。
この目的のために、LLMベースのモデルダイアログアプローチを提案します。このアプローチでは、2つの深い学習モデルが対話に従事し、ドローンを積極的に制御して知覚と異常検出の精度を高めます。
LLMに、実行可能なコード関数にマッピングされた自然言語運動コマンドの所定のセットが提供される高忠実度シミュレーション環境で実験を実施します。
さらに、視覚的な質問応答とキャプションのタスクを担当するマルチモーダルビジュアル質問応答(VQA)モデルを展開します。
2つのモデルを会話に参加させることにより、LLMは探索的質問をしながら、同時にドローンをシーンのさまざまな部分に飛ばし、アクティブな知覚を実装する新しい方法を提供します。
LLMSの推論能力を活用することにより、既存の静的知覚アプローチを超えて、シーンの改善された詳細な説明を出力します。
情報収集に加えて、私たちのアプローチは異常検出のために利用され、結果は、潜在的な危険について情報を提供し、警告する際の提案された方法の有効性を示しています。
要約(オリジナル)
Autonomous aerial monitoring is an important task aimed at gathering information from areas that may not be easily accessible by humans. At the same time, this task often requires recognizing anomalies from a significant distance or not previously encountered in the past. In this paper, we propose a novel framework that leverages the advanced capabilities provided by Large Language Models (LLMs) to actively collect information and perform anomaly detection in novel scenes. To this end, we propose an LLM based model dialogue approach, in which two deep learning models engage in a dialogue to actively control a drone to increase perception and anomaly detection accuracy. We conduct our experiments in a high fidelity simulation environment where an LLM is provided with a predetermined set of natural language movement commands mapped into executable code functions. Additionally, we deploy a multimodal Visual Question Answering (VQA) model charged with the task of visual question answering and captioning. By engaging the two models in conversation, the LLM asks exploratory questions while simultaneously flying a drone into different parts of the scene, providing a novel way to implement active perception. By leveraging LLMs reasoning ability, we output an improved detailed description of the scene going beyond existing static perception approaches. In addition to information gathering, our approach is utilized for anomaly detection and our results demonstrate the proposed methods effectiveness in informing and alerting about potential hazards.
arxiv情報
著者 | Tzoulio Chamiti,Nikolaos Passalis,Anastasios Tefas |
発行日 | 2025-01-27 18:38:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google