Jurassic World Remake: Bringing Ancient Fossils Back to Life via Zero-Shot Long Image-to-Image Translation

要約

自然言語からターゲットドメインを深く理解することで、私たちは大きなドメインギャップを越えて翻訳し、スケルトンを生き返らせるという点で有望な結果を生み出します。
この研究では、大きなドメイン ギャップ (longI2I) にわたるゼロショットの画像間変換 (I2I) にテキスト ガイド付き潜在拡散モデルを使用します。
ターゲットドメイン。
大きなドメインギャップを越えて翻訳を実行できることは、犯罪学、占星術、環境保護、古生物学など、現実世界のさまざまな用途に役立ちます。
この作業では、頭蓋骨と生きた動物の間で変換を行うための新しいタスク Skull2Animal を導入します。
このタスクでは、ガイドなしの敵対的生成ネットワーク (GAN) が大きなドメイン ギャップを越えて変換できないことがわかりました。
これらの従来の I2I 手法の代わりに、ガイド付き拡散および画像編集モデルの使用を検討し、テキスト プロンプト潜在拡散モデルを介してゼロショット I2I を実行できる新しいベンチマーク モデル Revive-2I を提供します。
大きなドメインギャップを埋めるには、ターゲットドメインに関する事前知識が必要であるため、longI2I にはガイダンスが必要であることがわかりました。
さらに、分類器誘導拡散モデルは特定のユースケースに合わせて再トレーニングする必要があり、トレーニング対象の画像が多種多様であるため、ターゲット ドメインに対する強力な制約がないため、プロンプトはターゲット ドメインに関する最良かつ最もスケーラブルな情報を提供することがわかりました。

要約(オリジナル)

With a strong understanding of the target domain from natural language, we produce promising results in translating across large domain gaps and bringing skeletons back to life. In this work, we use text-guided latent diffusion models for zero-shot image-to-image translation (I2I) across large domain gaps (longI2I), where large amounts of new visual features and new geometry need to be generated to enter the target domain. Being able to perform translations across large domain gaps has a wide variety of real-world applications in criminology, astrology, environmental conservation, and paleontology. In this work, we introduce a new task Skull2Animal for translating between skulls and living animals. On this task, we find that unguided Generative Adversarial Networks (GANs) are not capable of translating across large domain gaps. Instead of these traditional I2I methods, we explore the use of guided diffusion and image editing models and provide a new benchmark model, Revive-2I, capable of performing zero-shot I2I via text-prompting latent diffusion models. We find that guidance is necessary for longI2I because, to bridge the large domain gap, prior knowledge about the target domain is needed. In addition, we find that prompting provides the best and most scalable information about the target domain as classifier-guided diffusion models require retraining for specific use cases and lack stronger constraints on the target domain because of the wide variety of images they are trained on.

arxiv情報

著者 Alexander Martin,Haitian Zheng,Jie An,Jiebo Luo
発行日 2023-08-14 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, I.4 パーマリンク