Diffusion Explainer: Visual Explanation for Text-to-image Stable Diffusion

要約

タイトル: 「Diffusion Explainer: テキストから画像への安定した拡散の視覚的説明」

要約:

– 拡散ベースの生成モデルは、非常に説得力のある画像を生成する能力があり、世界的に注目されている。
– ただし、その内部構造と演算は、非専門家には理解が難しいことがある。
– 我々は、Diffusion Explainerを開発し、テキストプロンプトを画像に変換する方法を説明する最初のインタラクティブな視覚化ツールを提供する。
– Diffusion Explainerは、安定した拡散の複雑な構成要素の視覚的概要と、その基礎となる演算の詳細な説明を緊密に統合し、アニメーションやインタラクティブ要素を通じて抽象度の異なる複数のレベルを流暢に切り替えることができるようになっている。
– 2つの関連するテキストプロンプトによってガイドされた画像表現の進化をリファインメントのタイムステップで比較することにより、ユーザーはプロンプトが画像生成に与える影響を発見できる。
– Diffusion Explainerは、ローカルでユーザーのウェブブラウザで実行され、インストールや専門的なハードウェアが必要なく、現代のAI技術への一般教育アクセスを広げている。
– 弊社のオープンソースツールは、https://poloclub.github.io/diffusion-explainer/で利用可能であり、ビデオデモは https://youtu.be/Zg4gxdIWDdsで利用可能である。

要約(オリジナル)

Diffusion-based generative models’ impressive ability to create convincing images has captured global attention. However, their complex internal structures and operations often make them difficult for non-experts to understand. We present Diffusion Explainer, the first interactive visualization tool that explains how Stable Diffusion transforms text prompts into images. Diffusion Explainer tightly integrates a visual overview of Stable Diffusion’s complex components with detailed explanations of their underlying operations, enabling users to fluidly transition between multiple levels of abstraction through animations and interactive elements. By comparing the evolutions of image representations guided by two related text prompts over refinement timesteps, users can discover the impact of prompts on image generation. Diffusion Explainer runs locally in users’ web browsers without the need for installation or specialized hardware, broadening the public’s education access to modern AI techniques. Our open-sourced tool is available at: https://poloclub.github.io/diffusion-explainer/. A video demo is available at https://youtu.be/Zg4gxdIWDds.

arxiv情報

著者 Seongmin Lee,Benjamin Hoover,Hendrik Strobelt,Zijie J. Wang,ShengYun Peng,Austin Wright,Kevin Li,Haekyu Park,Haoyang Yang,Duen Horng Chau
発行日 2023-05-08 21:32:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG パーマリンク