要約
私たちはクリエイティブ コモンズ ライセンス (CC) 画像のデータセットを構築し、これを使用して Stable Diffusion 2 (SD2) と質的に競合する一連のオープン拡散モデルをトレーニングします。
このタスクには 2 つの課題があります。(1) 高解像度 CC 画像には、テキストから画像への生成モデルをトレーニングするために必要なキャプションがありません。
(2) CC 画像は比較的希少です。
次に、これらの課題に対処するために、直感的な転移学習技術を使用して、厳選された CC 画像と組み合わせた高品質の合成キャプションのセットを生成します。
次に、既存の SD2 モデルのトレーニングに必要な LAION-2B データのわずか 3% しか必要とせず、同等の品質が得られる、データ効率と計算効率の高いトレーニング レシピを開発します。
これらの結果は、高品質のモデルをトレーニングするのに十分な数の CC 画像 (約 7,000 万) があることを示しています。
また、トレーニング レシピには、トレーニングの最大 3 倍の高速化を実現するさまざまな最適化が実装されており、迅速なモデルの反復が可能になります。
このレシピを利用して、CommonCanvas ファミリーと呼ばれるいくつかの高品質のテキストから画像へのモデルをトレーニングします。
私たちの最大のモデルは、LAION よりも大幅に小さい CC データセットでトレーニングされ、トレーニングに合成キャプションを使用しているにもかかわらず、人間による評価で SD2 と同等のパフォーマンスを達成します。
モデル、データ、コードは https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md でリリースされています。
要約(オリジナル)
We assemble a dataset of Creative-Commons-licensed (CC) images, which we use to train a set of open diffusion models that are qualitatively competitive with Stable Diffusion 2 (SD2). This task presents two challenges: (1) high-resolution CC images lack the captions necessary to train text-to-image generative models; (2) CC images are relatively scarce. In turn, to address these challenges, we use an intuitive transfer learning technique to produce a set of high-quality synthetic captions paired with curated CC images. We then develop a data- and compute-efficient training recipe that requires as little as 3% of the LAION-2B data needed to train existing SD2 models, but obtains comparable quality. These results indicate that we have a sufficient number of CC images (~70 million) for training high-quality models. Our training recipe also implements a variety of optimizations that achieve ~3X training speed-ups, enabling rapid model iteration. We leverage this recipe to train several high-quality text-to-image models, which we dub the CommonCanvas family. Our largest model achieves comparable performance to SD2 on a human evaluation, despite being trained on our CC dataset that is significantly smaller than LAION and using synthetic captions for training. We release our models, data, and code at https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md
arxiv情報
著者 | Aaron Gokaslan,A. Feder Cooper,Jasmine Collins,Landan Seguin,Austin Jacobson,Mihir Patel,Jonathan Frankle,Cory Stephenson,Volodymyr Kuleshov |
発行日 | 2023-10-25 17:56:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google