Science-T2I: Addressing Scientific Illusions in Image Synthesis

要約

科学的知識を生成モデルに統合し、画像統合のリアリズムと一貫性を高めるための新しいアプローチを提示します。
まず、Science-T2iを紹介します。これは、9Kプロンプトを備えた敵対的な20K画像ペアを含む専門家に注目した敵対的なデータセットであり、幅広い異なる科学的知識カテゴリをカバーしています。
Science-T2Iを活用すると、科学的知識に基づいて生成された画像の評価を改善するエンドツーエンドの報酬モデルであるSciscoreを提示します。これは、事前に訓練されたCLIPモデルの科学的理解と視覚能力の両方を増強することによって達成されます。
さらに、Sciscoreに基づいて、既存の生成モデルに科学的知識を組み込むために、監視された微調整フェーズとマスクされたオンライン微調整フェーズを含む2段階のトレーニングフレームワークを提案します。
包括的な実験を通じて、生成されたコンテンツの科学的リアリズムを評価するための新しい基準を確立する際のフレームワークの有効性を実証します。
具体的には、Sciscoreは人間レベルに匹敵するパフォーマンスを達成し、経験豊富な人間の評価者が実施した評価と同様の5%の改善を示しています。
さらに、提案された微調整方法をフラックスに適用することにより、Sciscoreで50%を超えるパフォーマンス向上を達成します。

要約(オリジナル)

We present a novel approach to integrating scientific knowledge into generative models, enhancing their realism and consistency in image synthesis. First, we introduce Science-T2I, an expert-annotated adversarial dataset comprising adversarial 20k image pairs with 9k prompts, covering wide distinct scientific knowledge categories. Leveraging Science-T2I, we present SciScore, an end-to-end reward model that refines the assessment of generated images based on scientific knowledge, which is achieved by augmenting both the scientific comprehension and visual capabilities of pre-trained CLIP model. Additionally, based on SciScore, we propose a two-stage training framework, comprising a supervised fine-tuning phase and a masked online fine-tuning phase, to incorporate scientific knowledge into existing generative models. Through comprehensive experiments, we demonstrate the effectiveness of our framework in establishing new standards for evaluating the scientific realism of generated content. Specifically, SciScore attains performance comparable to human-level, demonstrating a 5% improvement similar to evaluations conducted by experienced human evaluators. Furthermore, by applying our proposed fine-tuning method to FLUX, we achieve a performance enhancement exceeding 50% on SciScore.

arxiv情報

著者 Jialuo Li,Wenhao Chai,Xingyu Fu,Haiyang Xu,Saining Xie
発行日 2025-04-17 17:44:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク