要約
幾何学的変換は、トレーニング画像のサイズを拡大するために広く使用されています。
既存の方法は、多くの場合、画像間の基礎となる変換が単峰分布であることを前提としているため、多峰分布のデータが発生する場合にはその能力が制限されます。
この論文では、幾何学的変形のマルチモーダル潜在空間で拡張変換を初めて生成する新しいモデル、マルチモーダル幾何拡張 (MGAug) を提案します。
これを達成するために、私たちはまず、変分オートエンコーダ (VAE) に微分同相変換 (別名微分同相) の潜在幾何空間の学習を組み込むディープ ネットワークを開発します。
多変量ガウスの混合は微分同相写像の接空間で定式化され、画像変換の隠れた分布を近似するための事前分布として機能します。
次に、VAE の学習されたマルチモーダル潜在空間からランダムにサンプリングされた変換を使用して画像を変形することにより、元のトレーニング データセットを拡張します。
モデルの効率を検証するために、2D 合成データセットのマルチクラス分類と実際の 3D 脳磁気共鳴画像 (MRI) のセグメンテーションという 2 つの異なるドメイン固有のタスクを使用して拡張戦略を共同学習します。
また、MGAug を最先端の変換ベースの画像拡張アルゴリズムと比較します。
実験結果は、私たちが提案したアプローチが予測精度を大幅に向上させ、すべてのベースラインを上回っていることを示しています。
私たちのコードは https://github.com/tonmoy-hossain/MGAug で公開されています。
要約(オリジナル)
Geometric transformations have been widely used to augment the size of training images. Existing methods often assume a unimodal distribution of the underlying transformations between images, which limits their power when data with multimodal distributions occur. In this paper, we propose a novel model, Multimodal Geometric Augmentation (MGAug), that for the first time generates augmenting transformations in a multimodal latent space of geometric deformations. To achieve this, we first develop a deep network that embeds the learning of latent geometric spaces of diffeomorphic transformations (a.k.a. diffeomorphisms) in a variational autoencoder (VAE). A mixture of multivariate Gaussians is formulated in the tangent space of diffeomorphisms and serves as a prior to approximate the hidden distribution of image transformations. We then augment the original training dataset by deforming images using randomly sampled transformations from the learned multimodal latent space of VAE. To validate the efficiency of our model, we jointly learn the augmentation strategy with two distinct domain-specific tasks: multi-class classification on 2D synthetic datasets and segmentation on real 3D brain magnetic resonance images (MRIs). We also compare MGAug with state-of-the-art transformation-based image augmentation algorithms. Experimental results show that our proposed approach outperforms all baselines by significantly improved prediction accuracy. Our code is publicly available at https://github.com/tonmoy-hossain/MGAug.
arxiv情報
著者 | Tonmoy Hossain,Miaomiao Zhang |
発行日 | 2024-01-25 18:31:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google