Easi3R: Estimating Disentangled Motion from DUSt3R Without Training

要約

Dust3Rの最近の進歩により、静的なシーンの密なポイント雲とカメラパラメーターの堅牢な推定が可能になり、トランスネットワークアーキテクチャを活用し、大規模な3Dデータセットの直接監督が可能になりました。
対照的に、利用可能な4Dデータセットの限られたスケールと多様性は、非常に一般化可能な4Dモデルをトレーニングするための主要なボトルネックを提示します。
この制約により、従来の4Dメソッドは、光学フローや深さなどの追加の幾何学的事前にスケーラブルな動的ビデオデータで3Dモデルを微調整するようになりました。
この作業では、反対側のパスを取り、4D再構築のためのシンプルで効率的なトレーニングフリーの方法であるEASI3Rを導入します。
私たちのアプローチは、推論中に注意の適応を適用し、SCRATCHからのプリトレーニングまたはネットワークの微調整の必要性を排除します。
Dust3Rの注意層は、カメラとオブジェクトの動きに関する豊富な情報を本質的にエンコードしていることがわかります。
これらの注意マップを注意深く解き放つことにより、正確な動的領域セグメンテーション、カメラポーズ推定、4D密度のポイントマップ再構成を実現します。
現実世界の動的ビデオでの広範な実験は、私たちの軽量の注意の適応が、広範な動的データセットでトレーニングまたは微調整された以前の最先端の方法を大幅に上回ることを示しています。
私たちのコードは、https://easi3r.github.io/で研究目的で公開されています

要約(オリジナル)

Recent advances in DUSt3R have enabled robust estimation of dense point clouds and camera parameters of static scenes, leveraging Transformer network architectures and direct supervision on large-scale 3D datasets. In contrast, the limited scale and diversity of available 4D datasets present a major bottleneck for training a highly generalizable 4D model. This constraint has driven conventional 4D methods to fine-tune 3D models on scalable dynamic video data with additional geometric priors such as optical flow and depths. In this work, we take an opposite path and introduce Easi3R, a simple yet efficient training-free method for 4D reconstruction. Our approach applies attention adaptation during inference, eliminating the need for from-scratch pre-training or network fine-tuning. We find that the attention layers in DUSt3R inherently encode rich information about camera and object motion. By carefully disentangling these attention maps, we achieve accurate dynamic region segmentation, camera pose estimation, and 4D dense point map reconstruction. Extensive experiments on real-world dynamic videos demonstrate that our lightweight attention adaptation significantly outperforms previous state-of-the-art methods that are trained or finetuned on extensive dynamic datasets. Our code is publicly available for research purpose at https://easi3r.github.io/

arxiv情報

著者 Xingyu Chen,Yue Chen,Yuliang Xiu,Andreas Geiger,Anpei Chen
発行日 2025-03-31 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク