要約
柔軟なリアルタイムのオンデバイス画像編集を可能にする非常に有望な方向性の 1 つは、安定拡散などの大規模なテキストから画像への拡散モデルを利用してデータ蒸留を利用し、敵対的生成ネットワーク (GAN) のトレーニングに使用されるペアのデータセットを生成することです。
。
このアプローチは、拡散モデルを使用して画像編集を実行するためにハイエンドの商用 GPU によって通常課される厳しい要件を特に緩和します。
ただし、テキストから画像への拡散モデルとは異なり、抽出された各 GAN は特定の画像編集タスクに特化しているため、さまざまな概念のモデルを取得するためにコストのかかるトレーニング作業が必要になります。
この研究では、拡散モデルから GAN を抽出するプロセスを大幅に効率化できるか?という新しい研究の方向性を紹介し、それに取り組みます。
この目標を達成するために、私たちは一連の革新的な技術を提案します。
まず、一般化された機能を備えたベース GAN モデルを構築します。これは、微調整を通じてさまざまな概念に適応できるため、最初からトレーニングする必要がなくなります。
次に、ベース GAN モデル内の重要なレイヤーを特定し、ベース モデル全体を微調整するのではなく、シンプルかつ効果的なランク検索プロセスを備えた低ランク適応 (LoRA) を採用します。
3 番目に、微調整に必要な最小限のデータを調査し、全体のトレーニング時間をさらに短縮します。
広範な実験により、GAN に各概念のトレーニング コストとストレージを大幅に削減して、モバイル デバイス上でリアルタイムの高品質画像編集を実行できる機能を効率的に提供できることが示されました。
要約(オリジナル)
One highly promising direction for enabling flexible real-time on-device image editing is utilizing data distillation by leveraging large-scale text-to-image diffusion models, such as Stable Diffusion, to generate paired datasets used for training generative adversarial networks (GANs). This approach notably alleviates the stringent requirements typically imposed by high-end commercial GPUs for performing image editing with diffusion models. However, unlike text-to-image diffusion models, each distilled GAN is specialized for a specific image editing task, necessitating costly training efforts to obtain models for various concepts. In this work, we introduce and address a novel research direction: can the process of distilling GANs from diffusion models be made significantly more efficient? To achieve this goal, we propose a series of innovative techniques. First, we construct a base GAN model with generalized features, adaptable to different concepts through fine-tuning, eliminating the need for training from scratch. Second, we identify crucial layers within the base GAN model and employ Low-Rank Adaptation (LoRA) with a simple yet effective rank search process, rather than fine-tuning the entire base model. Third, we investigate the minimal amount of data necessary for fine-tuning, further reducing the overall training time. Extensive experiments show that we can efficiently empower GANs with the ability to perform real-time high-quality image editing on mobile devices with remarkable reduced training cost and storage for each concept.
arxiv情報
著者 | Yifan Gong,Zheng Zhan,Qing Jin,Yanyu Li,Yerlan Idelbayev,Xian Liu,Andrey Zharkov,Kfir Aberman,Sergey Tulyakov,Yanzhi Wang,Jian Ren |
発行日 | 2024-01-11 18:59:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google