Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance

要約

テキスト間合成の評価は、確立されたメトリックと人間の好みとの間の不整合のために困難です。
CFREDを提案します。CFREDは、視覚的忠実度とテキストプロンプトの両方を明示的に説明する条件付きFR \ ‘Echet距離の概念に基づいたメトリックを提案します。
インセプションスコア(IS)、fre \ ‘echetインセプション距離(fid)、クリップスコアなどの既存のメトリックは、画質または画像テキストのアライメントのいずれかを評価しますが、人間の好みとの相関関係を制限するものではありません。
人間の好みを複製するために明示的にトレーニングされたスコアリングモデルには、絶え間ない更新には、新しい生成技術やドメイン外の入力に一般化されない場合があります。
最近提案された複数のテキストから画像間モデルと多様な迅速なデータセットにわたる広範な実験を通じて、CFREDは、人間の好みで訓練されたメトリックを含む統計的メトリックと比較して、人間の判断とより高い相関を示すことを実証します。
私たちの調査結果は、CFREDを、この急速に進化する分野でのベンチマークを標準化するテキストからイメージモデルの体系的な評価のための堅牢で将来の防御メトリックとして検証されています。
評価ツールキットとベンチマークを付録にリリースします。

要約(オリジナル)

Evaluating text-to-image synthesis is challenging due to misalignment between established metrics and human preferences. We propose cFreD, a metric based on the notion of Conditional Fr\’echet Distance that explicitly accounts for both visual fidelity and text-prompt alignment. Existing metrics such as Inception Score (IS), Fr\’echet Inception Distance (FID) and CLIPScore assess either image quality or image-text alignment but not both which limits their correlation with human preferences. Scoring models explicitly trained to replicate human preferences require constant updates and may not generalize to novel generation techniques or out-of-domain inputs. Through extensive experiments across multiple recently proposed text-to-image models and diverse prompt datasets, we demonstrate that cFreD exhibits a higher correlation with human judgments compared to statistical metrics, including metrics trained with human preferences. Our findings validate cFreD as a robust, future-proof metric for the systematic evaluation of text-to-image models, standardizing benchmarking in this rapidly evolving field. We release our evaluation toolkit and benchmark in the appendix.

arxiv情報

著者 Jaywon Koo,Jefferson Hernandez,Moayed Haji-Ali,Ziyan Yang,Vicente Ordonez
発行日 2025-03-27 17:35:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク