Benchmarking Generative AI Models for Deep Learning Test Input Generation

要約

テスト入力ジェネレーター (TIG) は、ディープラーニング (DL) 画像分類器がトレーニング セットやテスト セットを超えて入力に対して正しい予測を提供する能力を評価するために重要です。
生成 AI (GenAI) モデルの最近の進歩により、合成画像を作成および操作するための強力なツールになりましたが、これらの進歩は、トレーニングの複雑さとリソース要求の増大も意味します。
この研究では、さまざまな GenAI モデルをベンチマークして TIG と組み合わせ、ドメインの有効性とラベルの保存の観点から、その有効性、効率、生成されたテスト画像の品質を評価します。
私たちは、3 つの異なる GenAI アーキテクチャ (VAE、GAN、拡散モデル)、複雑さが増す 5 つの分類タスク、および 364 件の人による評価を含む実証研究を実施します。
私たちの結果は、MNIST のようなそれほど複雑でないデータセットには、VAE などのより単純なアーキテクチャで十分であることを示しています。
ただし、ImageNet などの機能豊富なデータセットを扱う場合、拡散モデルなどのより洗練されたアーキテクチャは、誤分類を誘発する有効な入力をより多く生成することで優れたパフォーマンスを実現します。

要約(オリジナル)

Test Input Generators (TIGs) are crucial to assess the ability of Deep Learning (DL) image classifiers to provide correct predictions for inputs beyond their training and test sets. Recent advancements in Generative AI (GenAI) models have made them a powerful tool for creating and manipulating synthetic images, although these advancements also imply increased complexity and resource demands for training. In this work, we benchmark and combine different GenAI models with TIGs, assessing their effectiveness, efficiency, and quality of the generated test images, in terms of domain validity and label preservation. We conduct an empirical study involving three different GenAI architectures (VAEs, GANs, Diffusion Models), five classification tasks of increasing complexity, and 364 human evaluations. Our results show that simpler architectures, such as VAEs, are sufficient for less complex datasets like MNIST. However, when dealing with feature-rich datasets, such as ImageNet, more sophisticated architectures like Diffusion Models achieve superior performance by generating a higher number of valid, misclassification-inducing inputs.

arxiv情報

著者 Maryam,Matteo Biagiola,Andrea Stocco,Vincenzo Riccio
発行日 2024-12-23 15:30:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE, D.2.5 パーマリンク