要約
画像データの拡張は、トレーニング データセットの多様性と品質の向上を促進できるため、現代のコンピューター ビジョン タスクにおいて重要な方法論を構成します。
これにより、下流タスクにおける機械学習モデルのパフォーマンスと堅牢性が向上します。
並行して、拡張アプローチを使用して、コンテキストおよびセマンティクスを認識した方法で特定の画像を編集/変更することもできます。
拡散モデル (DM) は、生成型人工知能 (AI) の分野における最新かつ非常に有望な手法クラスの 1 つであり、画像データ拡張のための強力なツールとして登場しており、学習によってリアルで多様な画像を生成できます。
基礎となるデータの分布。
現在の研究は、広範囲の戦略、タスク、およびアプリケーションをカバーする、画像拡張のための DM ベースのアプローチの体系的で包括的かつ詳細なレビューを実現します。
特に、DM の基本原理、モデル アーキテクチャ、トレーニング戦略の包括的な分析が最初に実行されます。
続いて、セマンティック操作、パーソナライゼーションと適応、およびアプリケーション固有の拡張タスクに関する技術に焦点を当てて、関連する画像拡張方法の分類が紹介されます。
次に、パフォーマンス評価方法とそれぞれの評価指標が分析されます。
最後に、この分野における現在の課題と将来の研究の方向性について説明します。
要約(オリジナル)
Image data augmentation constitutes a critical methodology in modern computer vision tasks, since it can facilitate towards enhancing the diversity and quality of training datasets; thereby, improving the performance and robustness of machine learning models in downstream tasks. In parallel, augmentation approaches can also be used for editing/modifying a given image in a context- and semantics-aware way. Diffusion Models (DMs), which comprise one of the most recent and highly promising classes of methods in the field of generative Artificial Intelligence (AI), have emerged as a powerful tool for image data augmentation, capable of generating realistic and diverse images by learning the underlying data distribution. The current study realizes a systematic, comprehensive and in-depth review of DM-based approaches for image augmentation, covering a wide range of strategies, tasks and applications. In particular, a comprehensive analysis of the fundamental principles, model architectures and training strategies of DMs is initially performed. Subsequently, a taxonomy of the relevant image augmentation methods is introduced, focusing on techniques regarding semantic manipulation, personalization and adaptation, and application-specific augmentation tasks. Then, performance assessment methodologies and respective evaluation metrics are analyzed. Finally, current challenges and future research directions in the field are discussed.
arxiv情報
著者 | Panagiotis Alimisis,Ioannis Mademlis,Panagiotis Radoglou-Grammatikis,Panagiotis Sarigiannidis,Georgios Th. Papadopoulos |
発行日 | 2025-01-10 15:37:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google