LIM: Large Interpolator Model for Dynamic Reconstruction

要約

ビデオデータからの動的資産の再構築は、コンピュータービジョンおよびグラフィックスのタスクにおいて多くの人々の中心です。
既存の4D再構成アプローチは、カテゴリ固有のモデルまたは最適化ベースの遅い方法によって制限されます。
最近の大規模な再構成モデ​​ル(LRM)に触発されて、時間をかけて暗黙の3D表現を補間するために、新しい因果整合性喪失に導かれた、変圧器ベースのフィードフォワードソリューションである大規模な補間モデル(LIM)を提示します。
$ t_0 $と$ $ $の暗黙の3D表現を考えると、LIMは[T_0、T_1] $の連続時間$ t \で変形した形状を生成し、高品質の補間フレームを数秒で配信します。
さらに、LIMは時間を越えて明示的なメッシュ追跡を可能にし、既存の生産パイプラインに統合できる一貫したUVテクスチャメッシュシーケンスを生成します。
また、LIMを拡散ベースのMultiViewジェネレーターと組み合わせて使用​​して、Monocularビデオから動的な4D再構成を作成します。
さまざまな動的データセットでLIMを評価し、画像空間補間法(フィルムなど)と直接のトリプル線形補間とのベンチマークを評価し、明確な利点を示します。
要約すると、LIMは、多様なカテゴリにわたって高速追跡された4Dアセット再構築が可能な最初のフィードフォワードモデルです。

要約(オリジナル)

Reconstructing dynamic assets from video data is central to many in computer vision and graphics tasks. Existing 4D reconstruction approaches are limited by category-specific models or slow optimization-based methods. Inspired by the recent Large Reconstruction Model (LRM), we present the Large Interpolation Model (LIM), a transformer-based feed-forward solution, guided by a novel causal consistency loss, for interpolating implicit 3D representations across time. Given implicit 3D representations at times $t_0$ and $t_1$, LIM produces a deformed shape at any continuous time $t\in[t_0,t_1]$, delivering high-quality interpolated frames in seconds. Furthermore, LIM allows explicit mesh tracking across time, producing a consistently uv-textured mesh sequence ready for integration into existing production pipelines. We also use LIM, in conjunction with a diffusion-based multiview generator, to produce dynamic 4D reconstructions from monocular videos. We evaluate LIM on various dynamic datasets, benchmarking against image-space interpolation methods (e.g., FiLM) and direct triplane linear interpolation, and demonstrate clear advantages. In summary, LIM is the first feed-forward model capable of high-speed tracked 4D asset reconstruction across diverse categories.

arxiv情報

著者 Remy Sabathier,Niloy J. Mitra,David Novotny
発行日 2025-03-28 15:36:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク