IPAdapter-Instruct: Resolving Ambiguity in Image-based Conditioning using Instruct Prompts

要約

拡散モデルは常に最先端の画像生成の境界を押し広げていますが、そのプロセスを微妙なニュアンスで制御するのは困難です。テキストによるプロンプトでは、画像のスタイルや細かい構造の詳細 (顔など) を正確に説明するのに不十分であることが実践的に証明されています。
ControlNet と IPAdapter は、代わりに画像に生成プロセスを条件付けることでこの欠点に対処しますが、個々のインスタンスは単一の条件付き事後分布のモデリングに限定されます。実際のユースケースでは、同じワークフロー内で複数の異なる事後分布が必要となり、トレーニングや複数のアダプターの使用が必要になります。
面倒です。
我々は、自然画像コンディショニングと、同じコンディショニング画像の解釈間を交換するための「指示」プロンプトを組み合わせた IPAdapter-Instruct を提案します: スタイル転送、オブジェクト抽出、その両方、それともまだ何か他のものですか?
IPAdapterInstruct は、タスクごとの専用モデルと比較して、品質の低下を最小限に抑えながら複数のタスクを効率的に学習します。

要約(オリジナル)

Diffusion models continuously push the boundary of state-of-the-art image generation, but the process is hard to control with any nuance: practice proves that textual prompts are inadequate for accurately describing image style or fine structural details (such as faces). ControlNet and IPAdapter address this shortcoming by conditioning the generative process on imagery instead, but each individual instance is limited to modeling a single conditional posterior: for practical use-cases, where multiple different posteriors are desired within the same workflow, training and using multiple adapters is cumbersome. We propose IPAdapter-Instruct, which combines natural-image conditioning with “Instruct” prompts to swap between interpretations for the same conditioning image: style transfer, object extraction, both, or something else still? IPAdapterInstruct efficiently learns multiple tasks with minimal loss in quality compared to dedicated per-task models.

arxiv情報

著者 Ciara Rowles,Shimon Vainer,Dante De Nigris,Slava Elizarov,Konstantin Kutsy,Simon Donné
発行日 2024-08-06 14:08:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク