要約
本論文では、テキストから画像への合成のための最先端の方法に関する研究を行い、これらの方法を評価するためのフレームワークを提案します。
画像に単一または複数のオブジェクトが含まれる合成を検討します。
私たちの研究は、現在の評価パイプラインにおけるいくつかの問題の概要を示しています。(i)画質評価の場合、一般的に使用されるメトリック(Inception Score(IS)など)は、単一オブジェクトの場合に誤って調整されるか、複数オブジェクトの場合に誤って使用されることがよくあります。
;
(ii)テキストの関連性とオブジェクトの精度の評価では、既存のR精度(RP)とセマンティックオブジェクトの精度(SOA)のメトリックにそれぞれ過剰適合現象があります。
(iii)マルチオブジェクトの場合、評価のための多くの重要な要素、たとえば、オブジェクトの忠実度、位置の位置合わせ、カウントの位置合わせは、大部分が却下されます。
(iv)現在のメトリックに基づくメソッドのランク付けは、実際の画像と非常に一致していません。
これらの問題を克服するために、既存のメトリックと新しいメトリックを組み合わせて、メソッドを体系的に評価することを提案します。
既存のメトリックについては、温度スケーリングを使用してISで使用される分類子の信頼度を調整することにより、IS*という名前のISの改良バージョンを提供します。
また、RPとSOAの過剰適合の問題を軽減するためのソリューションを提案します。
新しいメトリクスについては、マルチオブジェクトのケースを評価するために、カウントアラインメント、位置アラインメント、オブジェクト中心のIS、およびオブジェクト中心のFIDメトリクスを開発します。
メトリックのバッグを使用したベンチマークにより、既存の方法間で非常に一貫性のあるランキングが得られ、人間の評価とよく一致していることを示します。
副産物として、スペクトル正規化を使用してAttnGANのトレーニングを安定させることにより、ベンチマークのシンプルで強力なベースラインであるAttnGAN++を作成します。
また、テキストから画像へのモデルの公正で一貫した評価を提唱するためのツールボックス、いわゆるTISEもリリースします。
要約(オリジナル)
In this paper, we conduct a study on the state-of-the-art methods for text-to-image synthesis and propose a framework to evaluate these methods. We consider syntheses where an image contains a single or multiple objects. Our study outlines several issues in the current evaluation pipeline: (i) for image quality assessment, a commonly used metric, e.g., Inception Score (IS), is often either miscalibrated for the single-object case or misused for the multi-object case; (ii) for text relevance and object accuracy assessment, there is an overfitting phenomenon in the existing R-precision (RP) and Semantic Object Accuracy (SOA) metrics, respectively; (iii) for multi-object case, many vital factors for evaluation, e.g., object fidelity, positional alignment, counting alignment, are largely dismissed; (iv) the ranking of the methods based on current metrics is highly inconsistent with real images. To overcome these issues, we propose a combined set of existing and new metrics to systematically evaluate the methods. For existing metrics, we offer an improved version of IS named IS* by using temperature scaling to calibrate the confidence of the classifier used by IS; we also propose a solution to mitigate the overfitting issues of RP and SOA. For new metrics, we develop counting alignment, positional alignment, object-centric IS, and object-centric FID metrics for evaluating the multi-object case. We show that benchmarking with our bag of metrics results in a highly consistent ranking among existing methods that is well-aligned with human evaluation. As a by-product, we create AttnGAN++, a simple but strong baseline for the benchmark by stabilizing the training of AttnGAN using spectral normalization. We also release our toolbox, so-called TISE, for advocating fair and consistent evaluation of text-to-image models.
arxiv情報
著者 | Tan M. Dinh,Rang Nguyen,Binh-Son Hua |
発行日 | 2022-07-19 16:51:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google