要約
拡散モデルにより、高品質で多様な視覚コンテンツの合成が可能になります。
しかし、彼らはまれまたは目に見えない概念を生み出すのに苦労しています。
この課題に対処するために、画像生成モデルを使用した検索された生成(RAG)の使用について調査します。
Imageragを提案します。これは、特定のテキストプロンプトに基づいて関連する画像を動的に取得し、それらをコンテキストとして使用して生成プロセスをガイドする方法を提案します。
検索された画像を使用して生成を改善する以前のアプローチ、検索ベースの生成専用に訓練されたモデル。
対照的に、Imageragは既存の画像コンディショニングモデルの機能を活用しており、RAG固有のトレーニングを必要としません。
私たちのアプローチは非常に適応性があり、さまざまなモデルタイプにわたって適用でき、異なるベースモデルを使用して、まれで微調整された概念を生成する際の大幅な改善を示しています。
プロジェクトページは、https://rotem-shalev.github.io/imageragで入手できます
要約(オリジナル)
Diffusion models enable high-quality and diverse visual content synthesis. However, they struggle to generate rare or unseen concepts. To address this challenge, we explore the usage of Retrieval-Augmented Generation (RAG) with image generation models. We propose ImageRAG, a method that dynamically retrieves relevant images based on a given text prompt, and uses them as context to guide the generation process. Prior approaches that used retrieved images to improve generation, trained models specifically for retrieval-based generation. In contrast, ImageRAG leverages the capabilities of existing image conditioning models, and does not require RAG-specific training. Our approach is highly adaptable and can be applied across different model types, showing significant improvement in generating rare and fine-grained concepts using different base models. Our project page is available at: https://rotem-shalev.github.io/ImageRAG
arxiv情報
著者 | Rotem Shalev-Arkushin,Rinon Gal,Amit H. Bermano,Ohad Fried |
発行日 | 2025-02-13 15:36:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google