DEsignBench: Exploring and Benchmarking DALL-E 3 for Imagining Visual Design

要約

ビジュアル デザイン シナリオに合わせて調整された Text-to-Image (T2I) 生成ベンチマークである DEsignBench を紹介します。
DALL-E 3 などの最近の T2I モデルは、テキスト入力と厳密に一致するフォトリアリスティックな画像を生成する際に優れた機能を実証しています。
視覚的に魅力的な画像を作成する魅力は否定できませんが、私たちが重点を置くのは単なる美的喜びを超えたものです。
私たちは、これらの強力なモデルを本格的な設計コンテキストで使用する可能性を調査することを目指しています。
この目標を追求するために、T2I モデルを「設計技術能力」と「設計アプリケーション シナリオ」の両方で評価するように設計されたテスト サンプルを組み込んだ DEsignBench を開発します。
これら 2 つの側面はそれぞれ、特定のデザイン カテゴリの多様なセットによってサポートされています。
DEsignBench で DALL-E 3 を他の主要な T2I モデルと合わせて調査し、並べて比較するための包括的なビジュアル ギャラリーを作成します。
DEsignBench ベンチマークでは、DEsignBench ギャラリーで生成された画像に対して、画像とテキストの配置、視覚的な美しさ、デザインの創造性の基準に照らして人間による評価を実行します。
私たちの評価では、テキスト レンダリング、レイアウト構成、色の調和、3D デザイン、メディア スタイルなど、他の特殊なデザイン機能も考慮されます。
人間による評価に加えて、GPT-4V を利用した初の自動画像生成評価器を導入します。
この評価ツールは、簡単に複製可能でコスト効率が高く、人間の判断とよく一致する評価を提供します。
高解像度バージョンは https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download= から入手できます。

要約(オリジナル)

We introduce DEsignBench, a text-to-image (T2I) generation benchmark tailored for visual design scenarios. Recent T2I models like DALL-E 3 and others, have demonstrated remarkable capabilities in generating photorealistic images that align closely with textual inputs. While the allure of creating visually captivating images is undeniable, our emphasis extends beyond mere aesthetic pleasure. We aim to investigate the potential of using these powerful models in authentic design contexts. In pursuit of this goal, we develop DEsignBench, which incorporates test samples designed to assess T2I models on both ‘design technical capability’ and ‘design application scenario.’ Each of these two dimensions is supported by a diverse set of specific design categories. We explore DALL-E 3 together with other leading T2I models on DEsignBench, resulting in a comprehensive visual gallery for side-by-side comparisons. For DEsignBench benchmarking, we perform human evaluations on generated images in DEsignBench gallery, against the criteria of image-text alignment, visual aesthetic, and design creativity. Our evaluation also considers other specialized design capabilities, including text rendering, layout composition, color harmony, 3D design, and medium style. In addition to human evaluations, we introduce the first automatic image generation evaluator powered by GPT-4V. This evaluator provides ratings that align well with human judgments, while being easily replicable and cost-efficient. A high-resolution version is available at https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=

arxiv情報

著者 Kevin Lin,Zhengyuan Yang,Linjie Li,Jianfeng Wang,Lijuan Wang
発行日 2023-10-23 17:48:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク