要約
現在の3D再構築技術は、いくつかの画像から忠実に忠実に推測するのに苦労しています。
具体的には、既存の方法には高い計算需要があり、詳細なポーズ情報が必要であり、閉塞領域を確実に再構築することはできません。
シングルショット画像のための効率的でスケーラブルな変圧器ベースのエンコーダーレンダーメソッドである6IMG-to-3Dを3D再構成に導入します。
当社のメソッドは、大規模で無制限の屋外ドライビングシナリオ用の6つの外向きの入力画像からのみ6つの外向きのインプット画像から3Dコンシン酸タストパラメーター化されたトリプレーを出力します。
トリプレーンパラメーター化、微分ボリュームレンダリング、シーン収縮、画像機能の投影のための契約されたカスタムクロスおよび自己触媒メカニズムを組み合わせることにより、既存の欠点を解決するための一歩を踏み出します。
グローバルなポーズ情報のない単一のタイムスタンプからの6つのサラウンドビュー車両画像が、推論時に360 $^{\ circ} $シーンを再構築し、395ミリ秒かかることを示しています。
私たちの方法では、たとえば、サードパーソンの画像や鳥の目のビューをレンダリングすることができます。
私たちのコードはhttps://github.com/continental/6img-to-3dで入手できます。この例は、https://6img-to-3d.github.io/でご覧いただけます。
要約(オリジナル)
Current 3D reconstruction techniques struggle to infer unbounded scenes from a few images faithfully. Specifically, existing methods have high computational demands, require detailed pose information, and cannot reconstruct occluded regions reliably. We introduce 6Img-to-3D, an efficient, scalable transformer-based encoder-renderer method for single-shot image to 3D reconstruction. Our method outputs a 3D-consistent parameterized triplane from only six outward-facing input images for large-scale, unbounded outdoor driving scenarios. We take a step towards resolving existing shortcomings by combining contracted custom cross- and self-attention mechanisms for triplane parameterization, differentiable volume rendering, scene contraction, and image feature projection. We showcase that six surround-view vehicle images from a single timestamp without global pose information are enough to reconstruct 360$^{\circ}$ scenes during inference time, taking 395 ms. Our method allows, for example, rendering third-person images and birds-eye views. Our code is available at https://github.com/continental/6Img-to-3D, and more examples can be found at our website here https://6Img-to-3D.GitHub.io/.
arxiv情報
著者 | Théo Gieruc,Marius Kästingschäfer,Sebastian Bernhard,Mathieu Salzmann |
発行日 | 2025-04-07 14:07:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google