Towards Automatic Satellite Images Captions Generation Using Large Language Models

要約

自動画像キャプションは、自然言語を使用して視覚情報を伝えるための有望な技術です。
これは、環境モニタリング、資源管理、災害管理など、衛星リモートセンシングのさまざまなタスクに利益をもたらす可能性があります。ただし、この分野の主な課題の 1 つは、大量の画像キャプション データセットが必要となるため、大規模な画像キャプション データセットが不足していることです。
人間の専門知識と創造への努力。
大規模言語モデル (LLM) に関する最近の研究では、自然言語の理解と生成タスクにおける LLM の優れたパフォーマンスが実証されています。
それにもかかわらず、それらのほとんどは画像 (GPT-3.5、Falcon、Claude など) を処理できず、一般的な地上ビュー画像で事前トレーニングされた従来のキャプション モデルでは、航空画像 (BLIP、GIT、BLIP、GIT、
CM3、CM3Leonなど)。
この問題に対処するために、我々は新しいアプローチを提案します。自動リモートセンシング画像キャプション (ARSIC) は、オブジェクトの注釈を記述するように LLM を誘導することによって、リモートセンシング画像のキャプションを自動的に収集します。
また、事前トレーニングされた生成画像 2 テキスト モデル (GIT) を適応させて、リモート センシング画像の高品質のキャプションを生成するベンチマーク モデルも紹介します。
私たちの評価は、リモートセンシング画像のキャプションを収集するためのアプローチの有効性を示しています。

要約(オリジナル)

Automatic image captioning is a promising technique for conveying visual information using natural language. It can benefit various tasks in satellite remote sensing, such as environmental monitoring, resource management, disaster management, etc. However, one of the main challenges in this domain is the lack of large-scale image-caption datasets, as they require a lot of human expertise and effort to create. Recent research on large language models (LLMs) has demonstrated their impressive performance in natural language understanding and generation tasks. Nonetheless, most of them cannot handle images (GPT-3.5, Falcon, Claude, etc.), while conventional captioning models pre-trained on general ground-view images often fail to produce detailed and accurate captions for aerial images (BLIP, GIT, CM3, CM3Leon, etc.). To address this problem, we propose a novel approach: Automatic Remote Sensing Image Captioning (ARSIC) to automatically collect captions for remote sensing images by guiding LLMs to describe their object annotations. We also present a benchmark model that adapts the pre-trained generative image2text model (GIT) to generate high-quality captions for remote-sensing images. Our evaluation demonstrates the effectiveness of our approach for collecting captions for remote sensing images.

arxiv情報

著者 Yingxu He,Qiqi Sun
発行日 2023-10-17 16:45:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク