DialogPaint: A Dialog-based Image Editing Model

要約

DialogPaint は、画像編集にインタラクティブな会話型アプローチを採用する革新的なフレームワークです。
このフレームワークは、事前トレーニング済みの対話モデル (Blenderbot) と拡散モデル (Stable Diffusion) で構成されています。
対話モデルは、ユーザーと会話して要件を理解し、対話に基づいて簡潔な指示を生成します。
その後、安定拡散モデルはこれらの命令を入力画像とともに使用して、目的の出力を生成します。
このようなモデルの微調整データを取得することは難しいため、複数の大規模モデルを活用して、シミュレートされた対話と対応する画像ペアを生成します。
合成されたデータを使用してフレームワークを微調整した後、実際のアプリケーション シーンでそのパフォーマンスを評価します。
結果は、DialogPaint が、あいまいな指示を効果的に処理し、オブジェクトの置換、スタイルの転送、色の変更などのタスクを実行する、客観的および主観的な評価指標の両方で優れていることを示しています。
さらに、当社のフレームワークはマルチラウンド編集をサポートしているため、複雑な編集タスクを完了することができます。

要約(オリジナル)

We present DialogPaint, an innovative framework that employs an interactive conversational approach for image editing. The framework comprises a pretrained dialogue model (Blenderbot) and a diffusion model (Stable Diffusion). The dialogue model engages in conversation with users to understand their requirements and generates concise instructions based on the dialogue. Subsequently, the Stable Diffusion model employs these instructions, along with the input image, to produce the desired output. Due to the difficulty of acquiring fine-tuning data for such models, we leverage multiple large-scale models to generate simulated dialogues and corresponding image pairs. After fine-tuning our framework with the synthesized data, we evaluate its performance in real application scenes. The results demonstrate that DialogPaint excels in both objective and subjective evaluation metrics effectively handling ambiguous instructions and performing tasks such as object replacement, style transfer, color modification. Moreover, our framework supports multi-round editing, allowing for the completion of complicated editing tasks.

arxiv情報

著者 Jingxuan Wei,Shiyu Wu,Xin Jiang,Yequan Wang
発行日 2023-03-17 15:54:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク