GPS as a Control Signal for Image Generation

要約

写真メタデータに含まれる GPS タグが画像生成に有用な制御信号を提供することを示します。
私たちは GPS から画像へのモデルをトレーニングし、都市内で画像がどのように変化するかを詳細に理解する必要があるタスクにそれらを使用します。
特に、GPS とテキストの両方を条件とした画像を生成する拡散モデルをトレーニングします。
学習されたモデルは、さまざまな地域、公園、ランドマークの特徴的な外観を捉えた画像を生成します。
また、各視点からの再構成の外観を制限するために GPS コンディショニングを使用して、スコア蒸留サンプリングを通じて 2D GPS から画像へのモデルから 3D モデルを抽出します。
私たちの評価は、GPS 調整済みモデルが位置に基づいて変化する画像を生成する方法を首尾よく学習し、GPS 調整により推定された 3D 構造が改善されたことを示唆しています。

要約(オリジナル)

We show that the GPS tags contained in photo metadata provide a useful control signal for image generation. We train GPS-to-image models and use them for tasks that require a fine-grained understanding of how images vary within a city. In particular, we train a diffusion model to generate images conditioned on both GPS and text. The learned model generates images that capture the distinctive appearance of different neighborhoods, parks, and landmarks. We also extract 3D models from 2D GPS-to-image models through score distillation sampling, using GPS conditioning to constrain the appearance of the reconstruction from each viewpoint. Our evaluations suggest that our GPS-conditioned models successfully learn to generate images that vary based on location, and that GPS conditioning improves estimated 3D structure.

arxiv情報

著者 Chao Feng,Ziyang Chen,Aleksander Holynski,Alexei A. Efros,Andrew Owens
発行日 2025-01-21 18:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク