要約
テキストから画像への合成の分野における最近の進歩は、品質、忠実度、および多様性に関する多数の機能強化という形で最高潮に達しました。
現代の技術により、フォトリアリスティックに近い品質に急速に近づく、非常に複雑なビジュアルの生成が可能になります。
それにもかかわらず、進歩が達成されるにつれて、これらの方法論の複雑さは増大し、その結果、この分野内の個人とその分野外の人々の間の理解の壁が強化されます。
この不均衡を軽減するために、トレーニング パラダイムとサンプリング プロセスの両方を含む、テキストから画像への生成のための合理化されたアプローチを提案します。
驚くべき単純さにもかかわらず、私たちの方法は、少ないサンプリング反復で美しく美しい画像を生成し、モデルを調整するための興味深い方法を可能にし、最先端の技術にはない利点をもたらします。
既存の研究と同等の結果を達成するこのアプローチの有効性を実証するために、私たちは 10 億パラメータのテキスト条件付きモデル (「パエリア」と呼ぶ) をトレーニングしました。
この分野での将来の探求を促進するために、私たちはソースコードとモデルを研究コミュニティが一般にアクセスできるようにしました。
要約(オリジナル)
Recent advancements in the domain of text-to-image synthesis have culminated in a multitude of enhancements pertaining to quality, fidelity, and diversity. Contemporary techniques enable the generation of highly intricate visuals which rapidly approach near-photorealistic quality. Nevertheless, as progress is achieved, the complexity of these methodologies increases, consequently intensifying the comprehension barrier between individuals within the field and those external to it. In an endeavor to mitigate this disparity, we propose a streamlined approach for text-to-image generation, which encompasses both the training paradigm and the sampling process. Despite its remarkable simplicity, our method yields aesthetically pleasing images with few sampling iterations, allows for intriguing ways for conditioning the model, and imparts advantages absent in state-of-the-art techniques. To demonstrate the efficacy of this approach in achieving outcomes comparable to existing works, we have trained a one-billion parameter text-conditional model, which we refer to as ‘Paella’. In the interest of fostering future exploration in this field, we have made our source code and models publicly accessible for the research community.
arxiv情報
著者 | Dominic Rampas,Pablo Pernias,Marc Aubreville |
発行日 | 2023-05-23 16:33:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google