Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion

要約

我々は、オンザフライで合成された都市スケールのシーンを通じて、街並みに相当する一連のビューを生成する方法を紹介します。
私たちの生成は、言語入力 (都市名、天気など) と、目的の軌道をホストする基礎となる地図/レイアウトによって条件付けされます。
ビデオ生成または 3D ビュー合成用の最近のモデルと比較して、私たちの方法は、視覚的な品質と一貫性を維持しながら、いくつかの街区にまたがるはるかに長距離のカメラ軌跡に拡張できます。
この目標を達成するために、私たちは、長いシーケンスに簡単に拡張できる自己回帰フレームワーク内で使用されるビデオ拡散に関する最近の研究を基盤にしています。
特に、自己回帰アプローチが現実的な都市画像の分布から逸脱することを防ぐ、新しい時間代入手法を導入します。
当社は、Google ストリート ビューからのデータポーズ画像の魅力的なソースとコンテキスト マップ データを使用して、ストリートスケープ システムをトレーニングします。これにより、ユーザーは、制御可能なカメラ ポーズを使用して、任意の都市レイアウトに条件付けされた都市ビューを生成できます。
詳細な結果は、https://boyangdeng.com/streetscapes のプロジェクト ページでご覧ください。

要約(オリジナル)

We present a method for generating Streetscapes-long sequences of views through an on-the-fly synthesized city-scale scene. Our generation is conditioned by language input (e.g., city name, weather), as well as an underlying map/layout hosting the desired trajectory. Compared to recent models for video generation or 3D view synthesis, our method can scale to much longer-range camera trajectories, spanning several city blocks, while maintaining visual quality and consistency. To achieve this goal, we build on recent work on video diffusion, used within an autoregressive framework that can easily scale to long sequences. In particular, we introduce a new temporal imputation method that prevents our autoregressive approach from drifting from the distribution of realistic city imagery. We train our Streetscapes system on a compelling source of data-posed imagery from Google Street View, along with contextual map data-which allows users to generate city views conditioned on any desired city layout, with controllable camera poses. Please see more results at our project page at https://boyangdeng.com/streetscapes.

arxiv情報

著者 Boyang Deng,Richard Tucker,Zhengqi Li,Leonidas Guibas,Noah Snavely,Gordon Wetzstein
発行日 2024-07-18 17:56:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク