Large Language Models for Captioning and Retrieving Remote Sensing Images

要約

画像キャプションとクロスモーダル検索は、視覚情報と言語情報の共同分析を伴うタスクの例です。
リモート センシング画像に関連して、これらのタスクは、専門家でないユーザーがさまざまなアプリケーションに関連する地球観測情報を抽出するのに役立ちます。
それでも、これまでのいくつかの取り組みにもかかわらず、リモートセンシング領域への視覚および言語モデルの開発と適用は、以前の研究で使用された利用可能なデータセットとモデルのサイズが比較的小さいために妨げられてきました。
この研究では、リモート センシング タスク、特に画像キャプションとテキスト画像検索のための視覚および言語手法である RS-CapRet を提案します。
我々は特に、対照的な言語と画像の事前トレーニングを通じてリモートセンシング画像に適応した画像エンコーダとともに、高機能の大規模デコーダ言語モデルを使用することを提案します。
画像エンコーダーと言語デコーダーを橋渡しするために、他のパラメーターを固定したまま、さまざまなリモート センシング画像キャプション データセットを組み合わせた例を使用して単純な線形レイヤーをトレーニングすることを提案します。
その後、RS-CapRet はリモート センシング画像の説明を生成し、テキストの説明から画像を取得して、SOTA または既存の方法と競合するパフォーマンスを実現します。
定性的な結果は、RS-CapRet が事前トレーニングされた大規模言語モデルを効果的に活用して、リモート センシング画像を記述し、さまざまな種類のクエリに基づいて画像を取得できること、および画像とテキストのインターリーブされたシーケンスを対話形式で処理できることを示しています。

要約(オリジナル)

Image captioning and cross-modal retrieval are examples of tasks that involve the joint analysis of visual and linguistic information. In connection to remote sensing imagery, these tasks can help non-expert users in extracting relevant Earth observation information for a variety of applications. Still, despite some previous efforts, the development and application of vision and language models to the remote sensing domain have been hindered by the relatively small size of the available datasets and models used in previous studies. In this work, we propose RS-CapRet, a Vision and Language method for remote sensing tasks, in particular image captioning and text-image retrieval. We specifically propose to use a highly capable large decoder language model together with image encoders adapted to remote sensing imagery through contrastive language-image pre-training. To bridge together the image encoder and language decoder, we propose training simple linear layers with examples from combining different remote sensing image captioning datasets, keeping the other parameters frozen. RS-CapRet can then generate descriptions for remote sensing images and retrieve images from textual descriptions, achieving SOTA or competitive performance with existing methods. Qualitative results illustrate that RS-CapRet can effectively leverage the pre-trained large language model to describe remote sensing images, retrieve them based on different types of queries, and also show the ability to process interleaved sequences of images and text in a dialogue manner.

arxiv情報

著者 João Daniel Silva,João Magalhães,Devis Tuia,Bruno Martins
発行日 2024-02-09 15:31:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク