Exploring Sparse MoE in GANs for Text-conditioned Image Synthesis

要約

スケールアップが難しいため、敵対的生成ネットワーク (GAN) は、テキスト条件付きの画像合成のタスクを担当できなくなっているようです。
まばらに活性化された専門家混合 (MoE) は、限られた計算リソースで大規模モデルをトレーニングするための有効なソリューションとして最近実証されました。
このような哲学に触発されて、特徴処理を学習するエキスパートの集合を採用する GAN ベースのテキストから画像へのジェネレーターである Aurora と、各特徴点に最適なエキスパートの選択を支援するスパース ルーターを紹介します。
サンプリングの確率性とテキストの状態を最終合成まで忠実にデコードするために、ルーターはテキストに統合されたグローバル潜在コードを考慮して適応的に決定を行います。
64×64 の画像解像度では、LAION2B-en および COYO-700M でトレーニングされたモデルは、MS COCO で 6.2 ゼロショット FID を達成します。
コミュニティのさらなる開発を促進するために、コードとチェックポイントをリリースします。

要約(オリジナル)

Due to the difficulty in scaling up, generative adversarial networks (GANs) seem to be falling from grace on the task of text-conditioned image synthesis. Sparsely-activated mixture-of-experts (MoE) has recently been demonstrated as a valid solution to training large-scale models with limited computational resources. Inspired by such a philosophy, we present Aurora, a GAN-based text-to-image generator that employs a collection of experts to learn feature processing, together with a sparse router to help select the most suitable expert for each feature point. To faithfully decode the sampling stochasticity and the text condition to the final synthesis, our router adaptively makes its decision by taking into account the text-integrated global latent code. At 64×64 image resolution, our model trained on LAION2B-en and COYO-700M achieves 6.2 zero-shot FID on MS COCO. We release the code and checkpoints to facilitate the community for further development.

arxiv情報

著者 Jiapeng Zhu,Ceyuan Yang,Kecheng Zheng,Yinghao Xu,Zifan Shi,Yujun Shen
発行日 2023-09-07 17:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク