Controllable Textual Inversion for Personalized Text-to-Image Generation

要約

タイトル:コントローラブル・テキスト反転による個人用テキストから画像生成

要約:

– 最近の大規模生成モデリングは、テキストプロンプトによって駆動された高精度なイメージを生成することで、前例のないパフォーマンスを達成しています。
– テキスト反転(TI)は、ユーザー定義、未知の要素、およびロングテール概念トークンを含むプロンプトの場合、個人化された生成において、テキストから画像モデルバックボーンとともに、効果的な技術として提案されています。
– ただし、TIの展開は「ダークマジック」に満ちており、追加のデータセットの厳しい要件、ループ内の煩雑な人的労力、および頑健性の欠如などが挙げられます。
– 本研究では、これらの問題をすべて解決し、堅牢で効率的かつ簡単に使用できるフレームワークを提供する、より強化されたTIのバージョンである「可制御的テキスト反転(COTI)」を提案しています。
– COTIの核心は、包括的かつ新しい重み付けスコアリングメカニズムで具体化された理論に基づく損失目的であり、アクティブラーニングパラダイムによってカプセル化されています。
– 広範な結果は、COTIが以前のTI関連アプローチを26.05のFIDスコアで下回り、R-precisionで23.00%のブーストを与えることを示しています。

要約(オリジナル)

The recent large-scale generative modeling has attained unprecedented performance especially in producing high-fidelity images driven by text prompts. Text inversion (TI), alongside the text-to-image model backbones, is proposed as an effective technique in personalizing the generation when the prompts contain user-defined, unseen or long-tail concept tokens. Despite that, we find and show that the deployment of TI remains full of ‘dark-magics’ — to name a few, the harsh requirement of additional datasets, arduous human efforts in the loop and lack of robustness. In this work, we propose a much-enhanced version of TI, dubbed Controllable Textual Inversion (COTI), in resolving all the aforementioned problems and in turn delivering a robust, data-efficient and easy-to-use framework. The core to COTI is a theoretically-guided loss objective instantiated with a comprehensive and novel weighted scoring mechanism, encapsulated by an active-learning paradigm. The extensive results show that COTI significantly outperforms the prior TI-related approaches with a 26.05 decrease in the FID score and a 23.00% boost in the R-precision.

arxiv情報

著者 Jianan Yang,Haobo Wang,Ruixuan Xiao,Sai Wu,Gang Chen,Junbo Zhao
発行日 2023-04-12 07:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク