DialogPaint: A Dialog-based Image Editing Model


DialogPaint は、画像編集にインタラクティブな会話型アプローチを採用する革新的なフレームワークです。
このフレームワークは、事前トレーニング済みの対話モデル (Blenderbot) と拡散モデル (Stable Diffusion) で構成されています。
合成されたデータを使用してフレームワークを微調整した後、実際のアプリケーション シーンでそのパフォーマンスを評価します。
結果は、DialogPaint が、あいまいな指示を効果的に処理し、オブジェクトの置換、スタイルの転送、色の変更などのタスクを実行する、客観的および主観的な評価指標の両方で優れていることを示しています。


We present DialogPaint, an innovative framework that employs an interactive conversational approach for image editing. The framework comprises a pretrained dialogue model (Blenderbot) and a diffusion model (Stable Diffusion). The dialogue model engages in conversation with users to understand their requirements and generates concise instructions based on the dialogue. Subsequently, the Stable Diffusion model employs these instructions, along with the input image, to produce the desired output. Due to the difficulty of acquiring fine-tuning data for such models, we leverage multiple large-scale models to generate simulated dialogues and corresponding image pairs. After fine-tuning our framework with the synthesized data, we evaluate its performance in real application scenes. The results demonstrate that DialogPaint excels in both objective and subjective evaluation metrics effectively handling ambiguous instructions and performing tasks such as object replacement, style transfer, color modification. Moreover, our framework supports multi-round editing, allowing for the completion of complicated editing tasks.


著者 Jingxuan Wei,Shiyu Wu,Xin Jiang,Yequan Wang
発行日 2023-03-17 15:54:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク