要約
テキストから画像への生成(TTI)モデルは、短いテキスト記述から高品質の画像を生成し、学術的および創造的な領域で広く使用されている。人間と同様に、TTIモデルにも世界観があり、与えられたプロンプトに対して生成する画像に影響を与える、学習データとタスクから学習した世界観がある。しかし、TTIモデルの世界観はユーザから隠されていることが多く、ユーザがTTIの出力を直感的に理解することは困難であり、また、ユーザの世界観とずれていることが多いため、ユーザの期待にそぐわない出力画像が生成されることがあります。これに対し、我々は、TTIモデルの世界観を出力者の属性にまたがって公開し、出力画像をユーザーの視点に合わせるための編集ツールを提供するインタラクティブなインターフェースであるDiffusionWorldViewerを紹介する。18人の多様なTTIユーザーを対象としたユーザー・スタディにおいて、DiffusionWorldViewerは、ユーザーが生成された画像において多様な視点を表現し、現在のTTIモデルに反映されている限定的な世界観に挑戦するのに役立つことがわかった。
要約(オリジナル)
Generative text-to-image (TTI) models produce high-quality images from short textual descriptions and are widely used in academic and creative domains. Like humans, TTI models have a worldview, a conception of the world learned from their training data and task that influences the images they generate for a given prompt. However, the worldviews of TTI models are often hidden from users, making it challenging for users to build intuition about TTI outputs, and they are often misaligned with users’ worldviews, resulting in output images that do not match user expectations. In response, we introduce DiffusionWorldViewer, an interactive interface that exposes a TTI model’s worldview across output demographics and provides editing tools for aligning output images with user perspectives. In a user study with 18 diverse TTI users, we find that DiffusionWorldViewer helps users represent their varied viewpoints in generated images and challenge the limited worldview reflected in current TTI models.
arxiv情報
著者 | Zoe De Simone,Angie Boggust,Arvind Satyanarayan,Ashia Wilson |
発行日 | 2024-02-05 16:33:03+00:00 |
arxivサイト | arxiv_id(pdf) |