画像データの拡張は、トレーニング データセットの多様性と品質の向上を促進できるため、現代のコンピューター ビジョン タスクにおいて重要な方法論を構成します。
拡散モデル (DM) は、生成型人工知能 (AI) の分野における最新かつ非常に有望な手法クラスの 1 つであり、画像データ拡張のための強力なツールとして登場しており、学習によってリアルで多様な画像を生成できます。
現在の研究は、広範囲の戦略、タスク、およびアプリケーションをカバーする、画像拡張のための DM ベースのアプローチの体系的で包括的かつ詳細なレビューを実現します。
特に、DM の基本原理、モデル アーキテクチャ、トレーニング戦略の包括的な分析が最初に実行されます。
Image data augmentation constitutes a critical methodology in modern computer vision tasks, since it can facilitate towards enhancing the diversity and quality of training datasets; thereby, improving the performance and robustness of machine learning models in downstream tasks. In parallel, augmentation approaches can also be used for editing/modifying a given image in a context- and semantics-aware way. Diffusion Models (DMs), which comprise one of the most recent and highly promising classes of methods in the field of generative Artificial Intelligence (AI), have emerged as a powerful tool for image data augmentation, capable of generating realistic and diverse images by learning the underlying data distribution. The current study realizes a systematic, comprehensive and in-depth review of DM-based approaches for image augmentation, covering a wide range of strategies, tasks and applications. In particular, a comprehensive analysis of the fundamental principles, model architectures and training strategies of DMs is initially performed. Subsequently, a taxonomy of the relevant image augmentation methods is introduced, focusing on techniques regarding semantic manipulation, personalization and adaptation, and application-specific augmentation tasks. Then, performance assessment methodologies and respective evaluation metrics are analyzed. Finally, current challenges and future research directions in the field are discussed.
著者 | Panagiotis Alimisis,Ioannis Mademlis,Panagiotis Radoglou-Grammatikis,Panagiotis Sarigiannidis,Georgios Th. Papadopoulos |
発行日 | 2025-01-10 15:37:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google