要約
データ増強は、ハイパースペクトル画像分類(HSIC)の不均衡なスマルサンプルデータ(ISSD)問題に効果的に対処します。
ほとんどの方法論は潜在空間に機能を拡張しますが、テキスト駆動型の生成を活用して現実的で多様なサンプルを作成するものはほとんどありません。
最近、テキスト誘導拡散モデルは、自然画像合成のテキストプロンプトに基づいて、非常に多様で高品質の画像を生成する能力により、大きな注目を集めています。
これに動機付けられたこのペーパーでは、HSICのISSDに対処するための新しい言語に基づいたハイパースペクトル画像合成方法であるTXT2HSI-LDM(VAE)を提案しています。
提案されたアプローチでは、拡散モデルを使用します。これは、ガウスノイズを繰り返し除去して、テキストの説明に条件付けられたハイパースペクトルサンプルを生成します。
まず、ハイパースペクトルデータの高次元性に対処するために、ユニバーサル変動自動エンコーダー(VAE)は、データを低次元の潜在空間にマッピングするように設計されています。
第二に、半監視された拡散モデルは、非標識データを完全に活用するように設計されています。
ランダムポリゴン空間クリッピング(RPSC)および潜在的特徴の不確実性推定(LF-UE)を使用して、さまざまな混合度をシミュレートします。
第三に、VAEは、拡散モデルによって生成された潜在空間からHSIを入力として言語条件で解読します。
実験では、2D-PCA空間の統計的特性とデータ分布からの合成サンプルの有効性を完全に評価します。
さらに、ピクセルレベルで視覚的言語の交差時点が視覚化され、提案されたモデルが生成されたデータの空間レイアウトとジオメトリをキャプチャできることを証明します。
実験は、提案されたTXT2HSI-LDM(VAE)のパフォーマンスが、古典的なバックボーンモデル、最先端のCNN、および半教師の方法を超えることを示しています。
要約(オリジナル)
Data augmentation effectively addresses the imbalanced-small sample data (ISSD) problem in hyperspectral image classification (HSIC). While most methodologies extend features in the latent space, few leverage text-driven generation to create realistic and diverse samples. Recently, text-guided diffusion models have gained significant attention due to their ability to generate highly diverse and high-quality images based on text prompts in natural image synthesis. Motivated by this, this paper proposes Txt2HSI-LDM(VAE), a novel language-informed hyperspectral image synthesis method to address the ISSD in HSIC. The proposed approach uses a denoising diffusion model, which iteratively removes Gaussian noise to generate hyperspectral samples conditioned on textual descriptions. First, to address the high-dimensionality of hyperspectral data, a universal variational autoencoder (VAE) is designed to map the data into a low-dimensional latent space, which provides stable features and reduces the inference complexity of diffusion model. Second, a semi-supervised diffusion model is designed to fully take advantage of unlabeled data. Random polygon spatial clipping (RPSC) and uncertainty estimation of latent feature (LF-UE) are used to simulate the varying degrees of mixing. Third, the VAE decodes HSI from latent space generated by the diffusion model with the language conditions as input. In our experiments, we fully evaluate synthetic samples’ effectiveness from statistical characteristics and data distribution in 2D-PCA space. Additionally, visual-linguistic cross-attention is visualized on the pixel level to prove that our proposed model can capture the spatial layout and geometry of the generated data. Experiments demonstrate that the performance of the proposed Txt2HSI-LDM(VAE) surpasses the classical backbone models, state-of-the-art CNNs, and semi-supervised methods.
arxiv情報
| 著者 | Yimin Zhu,Linlin Xu |
| 発行日 | 2025-02-28 17:33:31+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google