Re-imagine the Negative Prompt Algorithm: Transform 2D Diffusion into 3D, alleviate Janus problem and Beyond


タイトル:Negative Promptアルゴリズムの再設計:2D拡散を3Dに変換して、Janus問題を緩和し、さらに向けて

– テキストから画像を生成するモデルは、10年以上にわたって改善されてきました。
– ただし、これらのモデルは、テキストに対応する画像を生成する傾向があるため、2Dおよび3Dのアプリケーションで使用する場合、限界があります。
– この問題を解決するために、ネガティブプロンプトを使用することが提案されていました。
– しかし、現在の実装は、主要なプロンプトとネガティブプロンプトの重複がある場合に望ましい結果を生み出すことができないことがわかりました。
– この問題を解決するために、Perp-Negと呼ばれる新しいアルゴリズムが提案されています。
– Perp-Negは、スコア空間の幾何学的な特性を活用して、現在のネガティブプロンプトアルゴリズムの欠点を解決します。
– さらに、Perp-Negは、2Dの場合に初期に生成された画像から望ましくないコンセプトを編集できるようにすることにより、画像の生成により大きな柔軟性を提供します。
– Perp-Negを3Dに拡張するために、2Dでの実装方法を熟考して、拡散モデルを条件付けて、カノニカルなビューに偏らずに望ましいビューを生成する方法を探求しました。
– 最後に、Perp-Negを最新のテキストから3Dに変換する方法(DreamFusion)に統合することで、Janus(マルチヘッド)問題を効果的に解決することができました。


Although text-to-image diffusion models have made significant strides in generating images from text, they are sometimes more inclined to generate images like the data on which the model was trained rather than the provided text. This limitation has hindered their usage in both 2D and 3D applications. To address this problem, we explored the use of negative prompts but found that the current implementation fails to produce desired results, particularly when there is an overlap between the main and negative prompts. To overcome this issue, we propose Perp-Neg, a new algorithm that leverages the geometrical properties of the score space to address the shortcomings of the current negative prompts algorithm. Perp-Neg does not require any training or fine-tuning of the model. Moreover, we experimentally demonstrate that Perp-Neg provides greater flexibility in generating images by enabling users to edit out unwanted concepts from the initially generated images in 2D cases. Furthermore, to extend the application of Perp-Neg to 3D, we conducted a thorough exploration of how Perp-Neg can be used in 2D to condition the diffusion model to generate desired views, rather than being biased toward the canonical views. Finally, we applied our 2D intuition to integrate Perp-Neg with the state-of-the-art text-to-3D (DreamFusion) method, effectively addressing its Janus (multi-head) problem.


著者 Mohammadreza Armandpour,Huangjie Zheng,Ali Sadeghian,Amir Sadeghian,Mingyuan Zhou
発行日 2023-04-11 04:29:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク