要約
私たちは、ユーザーが入力したテキストから収益性の高い非代替トークン (NFT) 画像を生成するタスクを研究します。
拡散モデルの最近の進歩により、画像生成の大きな可能性が示されました。
しかし、既存の作品では、主に 1) NFT 画像に対する豊富できめの細かい視覚属性プロンプト、および 2) 高品質の NFT 画像を生成するための効果的な最適化メトリクスが欠如しているため、視覚的に快適で収益性の高い NFT 画像を生成するには不十分である可能性があります。
高品質のNFT画像。
これらの課題を解決するために、NFT 画像の報酬として複数のビジュアル ポリシー (つまり、Diffusion-MVP) を備えた拡散ベースの生成フレームワークを提案します。
提案されたフレームワークは、大規模言語モデル (LLM)、拡散ベースの画像ジェネレーター、および設計による一連の視覚的報酬で構成されます。
まず、LLM は、「忍者スタイルと緑色の背景を持つパンダ」などの特定の視覚属性を含む、より包括的な NFT スタイルのプロンプトを生成することで、基本的な人間の入力 (「パンダ」など) を強化します。
次に、拡散ベースの画像ジェネレーターは、大規模な NFT データセットを使用して微調整され、一般的な NFT 要素のきめの細かい画像スタイルとアクセサリー構成をキャプチャします。
第三に、視覚的な希少性レベル、視覚的な美的スコア、CLIP ベースのテキストと画像の関連性など、複数の視覚的なポリシーを最適化目標として利用することをさらに提案します。
この設計により、私たちが提案する Diffusion-MVP が高い視覚的品質と市場価値を備えた NFT 画像を作成できることが保証されます。
この研究を促進するために、私たちはこれまでで最大の公開されている NFT 画像データセットを収集しました。これは、対応するテキストと市場価値を備えた 150 万枚の高品質画像で構成されています。
客観的な評価やユーザー調査を含む広範な実験により、私たちのフレームワークはSOTAアプローチと比較して、より視覚的に魅力的な要素とより高い市場価値を示すNFT画像を生成できることが実証されています。
要約(オリジナル)
We study the task of generating profitable Non-Fungible Token (NFT) images from user-input texts. Recent advances in diffusion models have shown great potential for image generation. However, existing works can fall short in generating visually-pleasing and highly-profitable NFT images, mainly due to the lack of 1) plentiful and fine-grained visual attribute prompts for an NFT image, and 2) effective optimization metrics for generating high-quality NFT images. To solve these challenges, we propose a Diffusion-based generation framework with Multiple Visual-Policies as rewards (i.e., Diffusion-MVP) for NFT images. The proposed framework consists of a large language model (LLM), a diffusion-based image generator, and a series of visual rewards by design. First, the LLM enhances a basic human input (such as ‘panda’) by generating more comprehensive NFT-style prompts that include specific visual attributes, such as ‘panda with Ninja style and green background.’ Second, the diffusion-based image generator is fine-tuned using a large-scale NFT dataset to capture fine-grained image styles and accessory compositions of popular NFT elements. Third, we further propose to utilize multiple visual-policies as optimization goals, including visual rarity levels, visual aesthetic scores, and CLIP-based text-image relevances. This design ensures that our proposed Diffusion-MVP is capable of minting NFT images with high visual quality and market value. To facilitate this research, we have collected the largest publicly available NFT image dataset to date, consisting of 1.5 million high-quality images with corresponding texts and market values. Extensive experiments including objective evaluations and user studies demonstrate that our framework can generate NFT images showing more visually engaging elements and higher market value, compared with SOTA approaches.
arxiv情報
著者 | Huiguo He,Tianfu Wang,Huan Yang,Jianlong Fu,Nicholas Jing Yuan,Jian Yin,Hongyang Chao,Qi Zhang |
発行日 | 2023-06-20 17:59:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google