Mini-DALLE3: Interactive Text to Image by Prompting Large Language Models

要約

人工知能コンテンツ生成の革命は、テキストから画像への (T2I) 普及モデルのブームによって急速に加速しています。
開発からわずか 2 年以内に、最先端のモデルが生成できる前例のない高品質、多様性、創造性を実現しました。
ただし、自然言語記述を使用した安定拡散などの一般的な T2I モデルとの効果的な通信には、一般的な制限が依然として存在します。
このため、通常、複雑な単語の構成、マジック タグ、および注釈を使用したプロンプト エンジニアリングの専門知識がなければ、魅力的な画像を取得するのが困難になります。
最近リリースされた DALLE3 (人間の言語を話す ChatGPT が直接組み込まれた T2I モデル) からインスピレーションを得て、人間の意図を調整するよう努めている既存の T2I システムを再考し、新しいタスクであるインタラクティブ テキスト to 画像 (iT2I) を導入します。
LLM は、自然言語を使用した強力な画像とテキスト対応による、インターリーブされた高品質画像の生成/編集/改良と質問応答を実現します。
iT2I 問題に対処するにあたり、プロンプト手法と既製の T2I モデルを使用して iT2I 用の LLM を強化するシンプルなアプローチを紹介します。
ChatGPT、LLAMA、Baichuan、InternLM など、さまざまな LLM の下で一般的に使用されるさまざまなシナリオで iT2I に対するアプローチを評価します。
私たちのアプローチは、質問応答や質問応答などの LLM 固有の機能をほとんど低下させずに、トレーニングなしで既存の LLM およびテキストから画像へのモデルに iT2I 機能を導入する便利で低コストの方法となり得ることを実証します。
コード生成。
私たちは、この研究がより幅広い注目を集め、次世代 T2I システムの画質とともに、人間とマシンのインタラクションにおけるユーザー エクスペリエンスを向上させるためのインスピレーションを提供できることを願っています。

要約(オリジナル)

The revolution of artificial intelligence content generation has been rapidly accelerated with the booming text-to-image (T2I) diffusion models. Within just two years of development, it was unprecedentedly of high-quality, diversity, and creativity that the state-of-the-art models could generate. However, a prevalent limitation persists in the effective communication with these popular T2I models, such as Stable Diffusion, using natural language descriptions. This typically makes an engaging image hard to obtain without expertise in prompt engineering with complex word compositions, magic tags, and annotations. Inspired by the recently released DALLE3 – a T2I model directly built-in ChatGPT that talks human language, we revisit the existing T2I systems endeavoring to align human intent and introduce a new task – interactive text to image (iT2I), where people can interact with LLM for interleaved high-quality image generation/edit/refinement and question answering with stronger images and text correspondences using natural language. In addressing the iT2I problem, we present a simple approach that augments LLMs for iT2I with prompting techniques and off-the-shelf T2I models. We evaluate our approach for iT2I in a variety of common-used scenarios under different LLMs, e.g., ChatGPT, LLAMA, Baichuan, and InternLM. We demonstrate that our approach could be a convenient and low-cost way to introduce the iT2I ability for any existing LLMs and any text-to-image models without any training while bringing little degradation on LLMs’ inherent capabilities in, e.g., question answering and code generation. We hope this work could draw broader attention and provide inspiration for boosting user experience in human-machine interactions alongside the image quality of the next-generation T2I systems.

arxiv情報

著者 Lai Zeqiang,Zhu Xizhou,Dai Jifeng,Qiao Yu,Wang Wenhai
発行日 2023-10-11 16:53:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク