Stereo Any Video: Temporally Consistent Stereo Matching

要約

このペーパーでは、ビデオステレオマッチングの強力なフレームワークであるStereo Any Any Videoを紹介します。
カメラのポーズや光学フローなどの補助情報に依存せずに、空間的に正確かつ時間的に一貫した格差を推定できます。
強力な能力は、単眼のビデオ深度モデルの豊富な事前に駆動されます。これは、安定した表現を生成するための畳み込み機能と統合されています。
パフォーマンスをさらに向上させるために、主要なアーキテクチャの革新が導入されます。滑らかで堅牢なマッチングコストボリュームを構築するすべてのペア相関、および時間的一貫性を改善する一時的な凸状のアップサンプリングを構築します。
これらのコンポーネントは、堅牢性、精度、および時間的一貫性を集合的に保証し、ビデオステレオマッチングで新しい標準を設定します。
広範な実験は、我々の方法が、ゼロショット設定で定性的および定量的に複数のデータセットで最先端のパフォーマンスを達成し、実際の屋内および屋外シナリオへの強力な一般化を達成することを示しています。

要約(オリジナル)

This paper introduces Stereo Any Video, a powerful framework for video stereo matching. It can estimate spatially accurate and temporally consistent disparities without relying on auxiliary information such as camera poses or optical flow. The strong capability is driven by rich priors from monocular video depth models, which are integrated with convolutional features to produce stable representations. To further enhance performance, key architectural innovations are introduced: all-to-all-pairs correlation, which constructs smooth and robust matching cost volumes, and temporal convex upsampling, which improves temporal coherence. These components collectively ensure robustness, accuracy, and temporal consistency, setting a new standard in video stereo matching. Extensive experiments demonstrate that our method achieves state-of-the-art performance across multiple datasets both qualitatively and quantitatively in zero-shot settings, as well as strong generalization to real-world indoor and outdoor scenarios.

arxiv情報

著者 Junpeng Jing,Weixun Luo,Ye Mao,Krystian Mikolajczyk
発行日 2025-03-07 16:20:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク