要約
視覚的な比喩は、画像を通じて創造的なアイデアを説得したり伝えたりするために使用される強力な修辞手段です。
言語的な比喩と同様に、それらは象徴性とシンボルの並置を通じて暗黙的に意味を伝えます。
言語的メタファーから視覚的メタファーを生成するという新しいタスクを提案します。
これは、暗黙の意味と構成性をモデル化する能力が必要なため、DALL$\cdot$E 2 などの拡散ベースのテキストから画像へのモデルにとっては困難なタスクです。
私たちは、大規模言語モデル (LLM) と拡散モデルの連携を通じてこのタスクを解決することを提案します。思考連鎖プロンプトを使用して GPT-3 (davinci-002) を指示すると、暗黙のメタファーを視覚的に詳細に表現したテキストが生成されます。
意味と関連オブジェクトを抽出し、拡散ベースのテキストから画像へのモデルへの入力として使用します。人間と AI のコラボレーション フレームワークを使用して、人間が LLM と最高のパフォーマンスの拡散モデルの両方と対話することで、高いパフォーマンスを実現します。
– 1,540 の言語的比喩に対する 6,476 の視覚的比喩と、それらに関連する視覚的詳細を含む高品質のデータセット。
プロのイラストレーターによる評価により、このタスクに対する LLM と拡散モデルのコラボレーションの可能性が示されています。
人間と AI のコラボレーション フレームワークの有用性とデータセットの品質を評価するために、人間ベースの本質的な評価と、下流タスクとして視覚的含意を使用した外部評価の両方を実行します。
要約(オリジナル)
Visual metaphors are powerful rhetorical devices used to persuade or communicate creative ideas through images. Similar to linguistic metaphors, they convey meaning implicitly through symbolism and juxtaposition of the symbols. We propose a new task of generating visual metaphors from linguistic metaphors. This is a challenging task for diffusion-based text-to-image models, such as DALL$\cdot$E 2, since it requires the ability to model implicit meaning and compositionality. We propose to solve the task through the collaboration between Large Language Models (LLMs) and Diffusion Models: Instruct GPT-3 (davinci-002) with Chain-of-Thought prompting generates text that represents a visual elaboration of the linguistic metaphor containing the implicit meaning and relevant objects, which is then used as input to the diffusion-based text-to-image models.Using a human-AI collaboration framework, where humans interact both with the LLM and the top-performing diffusion model, we create a high-quality dataset containing 6,476 visual metaphors for 1,540 linguistic metaphors and their associated visual elaborations. Evaluation by professional illustrators shows the promise of LLM-Diffusion Model collaboration for this task . To evaluate the utility of our Human-AI collaboration framework and the quality of our dataset, we perform both an intrinsic human-based evaluation and an extrinsic evaluation using visual entailment as a downstream task.
arxiv情報
著者 | Tuhin Chakrabarty,Arkadiy Saakyan,Olivia Winn,Artemis Panagopoulou,Yue Yang,Marianna Apidianaki,Smaranda Muresan |
発行日 | 2023-07-14 16:09:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google