Vision-Language Models in Remote Sensing: Current Progress and Future Trends


タイトル: リモートセンシングにおけるビジョン・ランゲージモデル:現状と将来動向
– ChatGPTやGPT-4などの大規模言語モデルの注目すべき成果は、人工一般知能(AGI)のフィールドにおける関心と研究の波を引き起こしました。
– AGIを用いたインテリジェントなソリューションは、一般的な人工知能を使用して、様々なアプリケーションで問題を解決することができるようになり、人間の思考に近いものを提供します。しかし、リモートセンシングの分野では、AGIの実装に関する科学的文献は比較的乏しいままです。
– 既存のAI関連研究は主に視覚理解タスクにフォーカスしており、オブジェクトとその関係の意味的理解を無視しています。ここで、ビジョン・ランゲージモデルが優れており、画像とそれに関連するテキストの説明について推論することができるため、対象物の関係を理解することができます。これにより、画像のオブジェクトを認識するだけでなく、それらの関係を推測し、画像の自然言語の説明を生成できるため、画像キャプション、テキストベースの画像検索、視覚的問い合わせなど、視覚的 かつ テキスト理解が必要なタスクにより適しています。
– この論文は、リモートセンシングにおけるビジョン・ランゲージモデルの研究について包括的なレビューを提供し、最新の進歩をまとめ、現在の課題を強調し、潜在的な研究機会を特定します。特に、画像キャプション、テキストベースの画像生成、テキストベースの画像検索、視覚的問い合わせ、場面分類、意味的セグメンテーション、オブジェクト検出など、いくつかの主流のリモートセンシングタスクでのビジョン・ランゲージモデルの応用についてレビューし、各タスクについて短い説明と代表的な研究のレビューを行います。最後に、既存の課題をまとめ、将来の開発の可能性について提供します。


The remarkable achievements of ChatGPT and GPT-4 have sparked a wave of interest and research in the field of large language models for Artificial General Intelligence (AGI). These models provide us with intelligent solutions that are more similar to human thinking, enabling us to use general artificial intelligence to solve problems in various applications. However, in the field of remote sensing, the scientific literature on the implementation of AGI remains relatively scant. Existing AI-related research primarily focuses on visual understanding tasks while neglecting the semantic understanding of the objects and their relationships. This is where vision-language models excel, as they enable reasoning about images and their associated textual descriptions, allowing for a deeper understanding of the underlying semantics. Vision-language models can go beyond recognizing the objects in an image and can infer the relationships between them, as well as generate natural language descriptions of the image. This makes them better suited for tasks that require both visual and textual understanding, such as image captioning, text-based image retrieval, and visual question answering. This paper provides a comprehensive review of the research on vision-language models in remote sensing, summarizing the latest progress, highlighting the current challenges, and identifying potential research opportunities. Specifically, we review the application of vision-language models in several mainstream remote sensing tasks, including image captioning, text-based image generation, text-based image retrieval, visual question answering, scene classification, semantic segmentation, and object detection. For each task, we briefly describe the task background and review some representative works. Finally, we summarize the limitations of existing work and provide some possible directions for future development.


著者 Congcong Wen,Yuan Hu,Xiang Li,Zhenghang Yuan,Xiao Xiang Zhu
発行日 2023-05-09 19:17:07+00:00
カテゴリー: cs.AI, cs.CV パーマリンク