要約
この文書では、空間と視覚を同時に調整するための新しい 1 ブランチ アダプター アーキテクチャである ViscoNet を紹介します。
私たちの軽量モデルには、トレーニング可能なパラメーターと、現在の最先端の IP アダプターよりも数桁小さいデータセット サイズが必要です。
ただし、私たちの方法は、凍結されたテキストから画像への (T2I) バックボーンの生成力をうまく保存します。
特に、これまで見落とされていた広範な問題であるモード崩壊への対処に優れています。
当社の斬新なアーキテクチャは、調和のとれたビジュアルとテキストのバランスを実現し、ポーズの再ターゲティング、仮想試着、様式化、人物の再識別、テキスタイル転写などのさまざまな人物画像生成タスクで比類のない多用途性を実現する優れた機能を実証します。デモとコード
プロジェクトページ https://soon-yau.github.io/visconet/ から入手できます。
要約(オリジナル)
This paper introduces ViscoNet, a novel one-branch-adapter architecture for concurrent spatial and visual conditioning. Our lightweight model requires trainable parameters and dataset size multiple orders of magnitude smaller than the current state-of-the-art IP-Adapter. However, our method successfully preserves the generative power of the frozen text-to-image (T2I) backbone. Notably, it excels in addressing mode collapse, a pervasive issue previously overlooked. Our novel architecture demonstrates outstanding capabilities in achieving a harmonious visual-text balance, unlocking unparalleled versatility in various human image generation tasks, including pose re-targeting, virtual try-on, stylization, person re-identification, and textile transfer.Demo and code are available from project page https://soon-yau.github.io/visconet/ .
arxiv情報
著者 | Soon Yau Cheong,Armin Mustafa,Andrew Gilbert |
発行日 | 2024-08-12 13:53:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google