要約
我々は、テキストから画像へのモデルを用いて、複数の画像スケールにわたって一貫性のあるコンテンツを生成し、シーンへの極端な意味的ズームを可能にする方法を提示する。例えば、森の広角風景ビューから、木の枝の1つに座っている昆虫のマクロショットまで。私たちは、個々のサンプリングプロセスの整合性を保ちながら、異なるスケール間の一貫性を促進する、ジョイントマルチスケール拡散サンプリングアプローチによってこれを達成する。生成された各スケールは異なるテキストプロンプトによって誘導されるため、本手法は、大きく異なるスケールで新しい文脈構造を作成するのに苦労する可能性のある従来の超解像手法よりも、より深いレベルのズームを可能にする。本手法を画像超解像やアウトペインティングの代替技術と定性的に比較し、本手法が一貫したマルチスケールコンテンツの生成に最も効果的であることを示す。
要約(オリジナル)
We present a method that uses a text-to-image model to generate consistent content across multiple image scales, enabling extreme semantic zooms into a scene, e.g., ranging from a wide-angle landscape view of a forest to a macro shot of an insect sitting on one of the tree branches. We achieve this through a joint multi-scale diffusion sampling approach that encourages consistency across different scales while preserving the integrity of each individual sampling process. Since each generated scale is guided by a different text prompt, our method enables deeper levels of zoom than traditional super-resolution methods that may struggle to create new contextual structure at vastly different scales. We compare our method qualitatively with alternative techniques in image super-resolution and outpainting, and show that our method is most effective at generating consistent multi-scale content.
arxiv情報
著者 | Xiaojuan Wang,Janne Kontkanen,Brian Curless,Steve Seitz,Ira Kemelmacher,Ben Mildenhall,Pratul Srinivasan,Dor Verbin,Aleksander Holynski |
発行日 | 2023-12-04 18:59:25+00:00 |
arxivサイト | arxiv_id(pdf) |