要約
パーソナライズされた画像合成は、テキストから画像の生成における極めて重要なアプリケーションとして浮上しており、さまざまなコンテキストで特定の主題を特徴とする画像の作成を可能にします。
拡散モデルはこのドメインを支配していますが、テキストと画像モデリングのための統一されたアーキテクチャを備えた自動回帰モデルは、パーソナライズされた画像生成のために拡大していないままです。
このペーパーでは、パーソナライズされた画像合成の自動回帰モデルを最適化する可能性を調査し、固有のマルチモーダル機能を活用してこのタスクを実行します。
テキスト埋め込みの最適化と変圧器層の微調整を組み合わせた2段階のトレーニング戦略を提案します。
自己回帰モデルに関する実験は、この方法が同等の主題の忠実度と、主要な拡散ベースのパーソナライゼーション方法に続く迅速なものを達成することを示しています。
結果は、パーソナライズされた画像生成における自動回帰モデルの有効性を強調し、この分野での将来の研究のための新しい方向性を提供します。
要約(オリジナル)
Personalized image synthesis has emerged as a pivotal application in text-to-image generation, enabling the creation of images featuring specific subjects in diverse contexts. While diffusion models have dominated this domain, auto-regressive models, with their unified architecture for text and image modeling, remain underexplored for personalized image generation. This paper investigates the potential of optimizing auto-regressive models for personalized image synthesis, leveraging their inherent multimodal capabilities to perform this task. We propose a two-stage training strategy that combines optimization of text embeddings and fine-tuning of transformer layers. Our experiments on the auto-regressive model demonstrate that this method achieves comparable subject fidelity and prompt following to the leading diffusion-based personalization methods. The results highlight the effectiveness of auto-regressive models in personalized image generation, offering a new direction for future research in this area.
arxiv情報
著者 | Kaiyue Sun,Xian Liu,Yao Teng,Xihui Liu |
発行日 | 2025-04-17 17:58:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google