Popeye: A Unified Visual-Language Model for Multi-Source Ship Detection from Remote Sensing Imagery

要約

船舶検出では、リモート センシング (RS) シーンから船舶の位置を特定する必要があります。
しかし、撮像ペイロードの違い、船舶のさまざまな外観、鳥瞰図からの複雑な背景干渉のため、マルチソース船舶検出を実現するための統一パラダイムを確立することは困難です。
したがって、この記事では、大規模言語モデル (LLM) が強力な一般化能力を発揮することを考慮して、RS 画像からの複数ソースの船舶検出のために Popeye と呼ばれる新しい統合視覚言語モデルを提案します。
まず、船舶検出のためのマルチソース画像間の解釈のギャップを埋めるために、さまざまな船舶検出方法 (水平バウンディング ボックス (HBB)、指向性バウンディング ボックス (OBB) など) を統合する新しい画像命令応答方法が設計されています。
統一されたラベル付けパラダイムに組み込まれます。
次に、これを考慮して、視覚コンテンツと言語コンテンツの間のインタラクティブな理解能力を強化するために、提案されたポパイ用のクロスモーダル画像解釈方法が開発され、マルチソース船舶検出タスクに簡単に移行できます。
その後、客観的ドメインの違いにより、自然シーンからの事前トレーニングされた視覚言語知識をマルチソース船舶検出用の RS ドメインに適応させるように知識適応メカニズムが設計されます。
さらに、セグメント エニシング モデル (SAM) も提案されている Popeye にシームレスに統合されており、追加のトレーニング コストをかけずにピクセル レベルの船舶セグメンテーションを実現します。
最後に、MMShip という名前の新しく構築された命令データセットに対して広範な実験が行われ、その結果は、提案された Popeye が、ゼロショットのマルチソース船舶検出に関して、現在のスペシャリスト、オープンボキャブラリー、およびその他の視覚言語モデルよりも優れていることを示しています。

要約(オリジナル)

Ship detection needs to identify ship locations from remote sensing (RS) scenes. However, due to different imaging payloads, various appearances of ships, and complicated background interference from the bird’s eye view, it is difficult to set up a unified paradigm for achieving multi-source ship detection. Therefore, in this article, considering that the large language models (LLMs) emerge the powerful generalization ability, a novel unified visual-language model called Popeye is proposed for multi-source ship detection from RS imagery. First, to bridge the interpretation gap between multi-source images for ship detection, a novel image-instruction-answer way is designed to integrate the various ship detection ways (e.g., horizontal bounding box (HBB), oriented bounding box (OBB)) into a unified labeling paradigm. Then, in view of this, a cross-modal image interpretation method is developed for the proposed Popeye to enhance interactive comprehension ability between visual and language content, which can be easily migrated into any multi-source ship detection task. Subsequently, owing to objective domain differences, a knowledge adaption mechanism is designed to adapt the pre-trained visual-language knowledge from the nature scene into the RS domain for multi-source ship detection. In addition, the segment anything model (SAM) is also seamlessly integrated into the proposed Popeye to achieve pixel-level ship segmentation without additional training costs. Finally, extensive experiments are conducted on the newly constructed instruction dataset named MMShip, and the results indicate that the proposed Popeye outperforms current specialist, open-vocabulary, and other visual-language models for zero-shot multi-source ship detection.

arxiv情報

著者 Wei Zhang,Miaoxin Cai,Tong Zhang,Guoqiang Lei,Yin Zhuang,Xuerui Mao
発行日 2024-03-06 15:35:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク