High-Fidelity Lake Extraction via Two-Stage Prompt Enhancement: Establishing a Novel Baseline and Benchmark

要約

リモート センシング画像から湖を抽出することは、湖の形状やデータ ノイズが多様であるため、複雑な課題です。
現在の手法はマルチスペクトル画像データセットに依存しているため、ピクセル配置から湖の特徴を正確に学習することが困難になっています。
これは、モデルの学習と正確なセグメンテーション マスクの作成に影響します。
このペーパーでは、ポイント、ボックス、マスク プロンプトを使用して湖のおおよその位置を提供する、統一されたプロンプト ベースのデータセット構築アプローチを紹介します。
また、トレーニング中のプロンプトベースの段階とプロンプトなしの段階を含む 2 段階のプロンプト強化フレームワーク LEPrompter も提案します。
プロンプトベースのステージでは、プロンプト エンコーダーを使用して事前情報を抽出し、プロンプト デコーダーでの自己注意および相互注意を通じてプロンプト トークンと画像埋め込みを統合します。
推論中の独立性を確保するためにモデルがトレーニングされると、プロンプトは非アクティブになり、自動レイク抽出が可能になります。
地表水と青海チベット高原湖のデータセットの評価では、以前の最先端の方法と比較して一貫したパフォーマンスの向上が示されています。
LEPrompter は、追加のパラメーターや GFLOP を導入することなく、それぞれのデータセットで 91.48% および 97.43% の mIoU スコアを達成します。
補足資料には、ソース コード、事前トレーニングされたモデル、および詳細なユーザー調査が含まれています。

要約(オリジナル)

The extraction of lakes from remote sensing images is a complex challenge due to the varied lake shapes and data noise. Current methods rely on multispectral image datasets, making it challenging to learn lake features accurately from pixel arrangements. This, in turn, affects model learning and the creation of accurate segmentation masks. This paper introduces a unified prompt-based dataset construction approach that provides approximate lake locations using point, box, and mask prompts. We also propose a two-stage prompt enhancement framework, LEPrompter, which involves prompt-based and prompt-free stages during training. The prompt-based stage employs a prompt encoder to extract prior information, integrating prompt tokens and image embeddings through self- and cross-attention in the prompt decoder. Prompts are deactivated once the model is trained to ensure independence during inference, enabling automated lake extraction. Evaluations on Surface Water and Qinghai-Tibet Plateau Lake datasets show consistent performance improvements compared to the previous state-of-the-art method. LEPrompter achieves mIoU scores of 91.48% and 97.43% on the respective datasets without introducing additional parameters or GFLOPs. Supplementary materials provide the source code, pre-trained models, and detailed user studies.

arxiv情報

著者 Ben Chen,Xuechao Zou,Kai Li,Yu Zhang,Junliang Xing,Pin Tao
発行日 2023-08-16 15:51:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク