HSIGene: A Foundation Model For Hyperspectral Image Generation

要約

ハイパースペクトル画像(HSI)は農業や環境モニタリングなど様々な分野で重要な役割を果たしている.しかし,高価な取得コストのため,ハイパースペクトル画像の数は限られており,下流タスクのパフォーマンスを低下させている.最近の研究では HSI を合成するために拡散モデルの採用が試みられているが、生成される画像の信頼性と多様性に影響する HSI の希少性に依然として苦慮している。空間的多様性を高めるためにマルチモーダルデータを組み込むことを提案する研究もあるが、スペクトルの忠実性は確保できない。さらに、既存のHSI合成モデルは一般的に制御不可能であるか、単一条件制御しかサポートしていないため、正確で信頼性の高いHSIを生成する能力が制限されている。これらの問題を軽減するために、我々はHSIGeneを提案する。HSIGeneは潜在拡散に基づく新しいHSI生成基盤モデルであり、多条件制御をサポートすることで、より正確で信頼性の高いHSI生成を可能にする。スペクトル忠実度を保ちながら訓練データの空間的多様性を高めるために、空間的超解像に基づく新しいデータ増強法を提案する。この方法では、まずHSIをアップスケールし、高解像度のHSIを切り出すことで豊富な訓練パッチを得ることができる。さらに、拡張されたデータの知覚品質を向上させるために、我々は新しい2段階HSI超解像フレームワークを導入する。このフレームワークは、まずRGBバンド超解像を適用し、次に我々の提案する長方形誘導注意ネットワーク(RGAN)をガイド付きHSI超解像に利用する。実験により、提案モデルがノイズ除去や超解像などの下流タスクのために膨大な量の現実的なHSIを生成できることが実証された。コードとモデルはhttps://github.com/LiPang/HSIGene。

要約(オリジナル)

Hyperspectral image (HSI) plays a vital role in various fields such as agriculture and environmental monitoring. However, due to the expensive acquisition cost, the number of hyperspectral images is limited, degenerating the performance of downstream tasks. Although some recent studies have attempted to employ diffusion models to synthesize HSIs, they still struggle with the scarcity of HSIs, affecting the reliability and diversity of the generated images. Some studies propose to incorporate multi-modal data to enhance spatial diversity, but the spectral fidelity cannot be ensured. In addition, existing HSI synthesis models are typically uncontrollable or only support single-condition control, limiting their ability to generate accurate and reliable HSIs. To alleviate these issues, we propose HSIGene, a novel HSI generation foundation model which is based on latent diffusion and supports multi-condition control, allowing for more precise and reliable HSI generation. To enhance the spatial diversity of the training data while preserving spectral fidelity, we propose a new data augmentation method based on spatial super-resolution, in which HSIs are upscaled first, and thus abundant training patches could be obtained by cropping the high-resolution HSIs. In addition, to improve the perceptual quality of the augmented data, we introduce a novel two-stage HSI super-resolution framework, which first applies RGB bands super-resolution and then utilizes our proposed Rectangular Guided Attention Network (RGAN) for guided HSI super-resolution. Experiments demonstrate that the proposed model is capable of generating a vast quantity of realistic HSIs for downstream tasks such as denoising and super-resolution. The code and models are available at https://github.com/LiPang/HSIGene.

arxiv情報

著者 Li Pang,Xiangyong Cao,Datao Tang,Shuang Xu,Xueru Bai,Feng Zhou,Deyu Meng
発行日 2024-11-01 04:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV パーマリンク