要約
大規模な言語モデルが多くの領域で優れたパフォーマンスを実証しているため、最近の研究では視覚と言語のタスクのための視覚モジュールのコントローラーとして言語モデル (LM) が採用されています。
既存の研究は LM に視覚的な理解を提供することに重点を置いていますが、我々は Text-to-Image (T2I) の生成と評価のための、解釈可能/説明可能な 2 つの新しいビジュアル プログラミング フレームワークを提案します。
まず、VPGen を紹介します。これは、T2I 生成をオブジェクト/カウント生成、レイアウト生成、イメージ生成の 3 つのステップに分解する、解釈可能な段階的な T2I 生成フレームワークです。
LM を使用して、テキストとレイアウトのペアで微調整することにより、最初の 2 つのステップ (オブジェクト/カウントの生成とレイアウトの生成) を処理します。
当社の段階的な T2I 生成フレームワークは、このタスクの主要なアプローチであるエンドツーエンド モデルよりも強力な空間制御を提供します。
さらに、事前トレーニングされた LM の世界的な知識を活用し、事前定義されたオブジェクト クラスのみを処理できる以前のレイアウト ガイド付き T2I 作業の制限を克服します。
私たちの VPGen は、最先端の T2I 生成モデルよりもオブジェクトの数/空間関係/スケールの制御が向上していることを実証します。
次に、ビジュアル プログラミングに基づいた T2I 生成のための、解釈可能で説明可能な評価フレームワークである VPEval を紹介します。
一部のスキルでは正確でも、他のスキルでは信頼性が低い単一のスコアリング モデルを使用した以前の T2I 評価とは異なり、VPEval は、さまざまなスキルの専門家である一連のビジュアル モジュールを呼び出す評価プログラムを作成し、評価結果のビジュアル + テキストによる説明も提供します。
私たちの分析では、VPEval は、広く使用されている単一モデルベースの評価よりも、スキル固有かつ自由形式のプロンプトに対して、より人間と相関のある評価を提供することを示しています。
私たちの研究が、T2I モデルの解釈可能/説明可能な生成と評価に関する将来の進歩を促進することを願っています。
ウェブサイト: https://vp-t2i.github.io
要約(オリジナル)
As large language models have demonstrated impressive performance in many domains, recent works have adopted language models (LMs) as controllers of visual modules for vision-and-language tasks. While existing work focuses on equipping LMs with visual understanding, we propose two novel interpretable/explainable visual programming frameworks for text-to-image (T2I) generation and evaluation. First, we introduce VPGen, an interpretable step-by-step T2I generation framework that decomposes T2I generation into three steps: object/count generation, layout generation, and image generation. We employ an LM to handle the first two steps (object/count generation and layout generation), by finetuning it on text-layout pairs. Our step-by-step T2I generation framework provides stronger spatial control than end-to-end models, the dominant approach for this task. Furthermore, we leverage the world knowledge of pretrained LMs, overcoming the limitation of previous layout-guided T2I works that can only handle predefined object classes. We demonstrate that our VPGen has improved control in counts/spatial relations/scales of objects than state-of-the-art T2I generation models. Second, we introduce VPEval, an interpretable and explainable evaluation framework for T2I generation based on visual programming. Unlike previous T2I evaluations with a single scoring model that is accurate in some skills but unreliable in others, VPEval produces evaluation programs that invoke a set of visual modules that are experts in different skills, and also provides visual+textual explanations of the evaluation results. Our analysis shows VPEval provides a more human-correlated evaluation for skill-specific and open-ended prompts than widely used single model-based evaluation. We hope our work encourages future progress on interpretable/explainable generation and evaluation for T2I models. Website: https://vp-t2i.github.io
arxiv情報
著者 | Jaemin Cho,Abhay Zala,Mohit Bansal |
発行日 | 2023-05-24 16:42:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google