In-Context LoRA for Diffusion Transformers

要約

最近の研究arXiv:2410.15027では、拡散変換器(DiT)を用いて、画像間の注目トークンを単純に連結することで、タスクに依存しない画像生成を探求している。しかし、かなりの計算資源があるにもかかわらず、生成された画像の忠実度は依然として最適ではない。本研究では、テキストから画像へのDiTは本質的に文脈内生成能力を有し、それを活性化するために最小限のチューニングしか必要としないという仮説を立てることによって、このフレームワークを再評価し、効率化する。多様な課題実験を通じて、既存のテキスト画像間DiTがチューニングなしで効果的に文脈内生成を実行できることを定性的に実証する。(1)トークンの代わりに画像を連結し、(2)複数画像のジョイントキャプションを実行し、(3)大規模データセットによるフルパラメータチューニングの代わりに、小規模データセット(例えば$20sim 100$サンプル)を用いたタスク固有のLoRAチューニングを適用する。このモデルをIn-Context LoRA (IC-LoRA)と名付ける。このアプローチでは、元のDiTモデルに変更を加える必要はなく、学習データを変更するだけである。驚くべきことに、我々のパイプラインは、よりプロンプトに忠実な忠実度の高い画像セットを生成する。チューニングデータの点ではタスクに特化しているが、我々のフレームワークはアーキテクチャとパイプラインにおいてタスクにとらわれないままであり、コミュニティに強力なツールを提供し、製品レベルのタスクにとらわれない生成システムのさらなる研究のための貴重な洞察を提供する。我々のコード、データ、モデルを https://github.com/ali-vilab/In-Context-LoRA で公開する。

要約(オリジナル)

Recent research arXiv:2410.15027 has explored the use of diffusion transformers (DiTs) for task-agnostic image generation by simply concatenating attention tokens across images. However, despite substantial computational resources, the fidelity of the generated images remains suboptimal. In this study, we reevaluate and streamline this framework by hypothesizing that text-to-image DiTs inherently possess in-context generation capabilities, requiring only minimal tuning to activate them. Through diverse task experiments, we qualitatively demonstrate that existing text-to-image DiTs can effectively perform in-context generation without any tuning. Building on this insight, we propose a remarkably simple pipeline to leverage the in-context abilities of DiTs: (1) concatenate images instead of tokens, (2) perform joint captioning of multiple images, and (3) apply task-specific LoRA tuning using small datasets (e.g., $20\sim 100$ samples) instead of full-parameter tuning with large datasets. We name our models In-Context LoRA (IC-LoRA). This approach requires no modifications to the original DiT models, only changes to the training data. Remarkably, our pipeline generates high-fidelity image sets that better adhere to prompts. While task-specific in terms of tuning data, our framework remains task-agnostic in architecture and pipeline, offering a powerful tool for the community and providing valuable insights for further research on product-level task-agnostic generation systems. We release our code, data, and models at https://github.com/ali-vilab/In-Context-LoRA

arxiv情報

著者 Lianghua Huang,Wei Wang,Zhi-Fan Wu,Yupeng Shi,Huanzhang Dou,Chen Liang,Yutong Feng,Yu Liu,Jingren Zhou
発行日 2024-11-01 03:15:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.GR パーマリンク