UniCTokens: Boosting Personalized Understanding and Generation via Unified Concept Tokens

要約

パーソナライズされたモデルは、ユーザーが提供する概念を理解し、生成する際に顕著な成功を示しています。
ただし、既存の方法では、理解と生成のために個別の概念トークンを使用して、これらのタスクを単独で扱います。
これにより、複雑なプロンプトで画像を生成するための制限が発生する可能性があります。
たとえば、コンセプト$ \ langle bo \ rangle $を考えると、帽子の追加のテキストの説明なしに「$ \ langle bo \ rangle $ with hat」を生成します。
この種の世代は、パーソナライズされた知識駆動型の世代を呼び出します。
制限に対処するために、パーソナライズされた情報を理解と生成のために統一されたビジョン言語モデル(VLM)に効果的に統合する新しいフレームワークであるUnictokensを提示します。
Unictokensは、補完的なセマンティクスを活用して、2つのパーソナライズされたタスクを強化するために、一連の統一コンセプトトークンをトレーニングします。
さらに、3つの段階で進歩的なトレーニング戦略を提案します。ウォームアップの理解、理解から生成をブートストラップすること、両方のタスク間の相互利益を高めるための世代からの理解を深めることです。
統一されたVLMパーソナライズを定量的に評価するために、概念の理解、概念生成、および知識主導の生成を評価するための最初のベンチマークであるUnifyBenchを提示します。
UnifyBenchの実験結果は、Unictokensが、パーソナライズされた知識主導の生成における概念理解、概念生成、および最先端の結果の達成における主要な方法と比較して、競争力のあるパフォーマンスを示していることを示しています。
私たちの研究は、理解の強化が生成を改善し、生成プロセスが理解に貴重な洞察をもたらすことができることを示しています。
コードとデータセットは、\ href {https://github.com/arctanxarc/unictokens} {https://github.com/arctanxarc/unictokens}でリリースされます。

要約(オリジナル)

Personalized models have demonstrated remarkable success in understanding and generating concepts provided by users. However, existing methods use separate concept tokens for understanding and generation, treating these tasks in isolation. This may result in limitations for generating images with complex prompts. For example, given the concept $\langle bo\rangle$, generating ‘$\langle bo\rangle$ wearing its hat’ without additional textual descriptions of its hat. We call this kind of generation personalized knowledge-driven generation. To address the limitation, we present UniCTokens, a novel framework that effectively integrates personalized information into a unified vision language model (VLM) for understanding and generation. UniCTokens trains a set of unified concept tokens to leverage complementary semantics, boosting two personalized tasks. Moreover, we propose a progressive training strategy with three stages: understanding warm-up, bootstrapping generation from understanding, and deepening understanding from generation to enhance mutual benefits between both tasks. To quantitatively evaluate the unified VLM personalization, we present UnifyBench, the first benchmark for assessing concept understanding, concept generation, and knowledge-driven generation. Experimental results on UnifyBench indicate that UniCTokens shows competitive performance compared to leading methods in concept understanding, concept generation, and achieving state-of-the-art results in personalized knowledge-driven generation. Our research demonstrates that enhanced understanding improves generation, and the generation process can yield valuable insights into understanding. Our code and dataset will be released at: \href{https://github.com/arctanxarc/UniCTokens}{https://github.com/arctanxarc/UniCTokens}.

arxiv情報

著者 Ruichuan An,Sihan Yang,Renrui Zhang,Zijun Shen,Ming Lu,Gaole Dai,Hao Liang,Ziyu Guo,Shilin Yan,Yulin Luo,Bocheng Zou,Chaoqun Yang,Wentao Zhang
発行日 2025-05-20 17:56:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク