Stereo Risk: A Continuous Modeling Approach to Stereo Matching


我々は、コンピュータビジョンにおける古典的なステレオマッチング問題を解決するための新しいディープラーニングアプローチであるStereo Riskを紹介する。ステレオマッチングはピクセル毎の視差推定問題に帰着することはよく知られているように、一般的な最先端のステレオマッチングアプローチは、シーンの視差値を離散化することによって、シーンの視差値を回帰することに広く依存している。このような離散化は、シーンの奥行きのニュアンスや連続的な性質を捉えられないことが多い。ステレオリスクは、シーン視差を連続的なリスク最小化問題の最適解として定式化することで、従来の離散化アプローチから脱却する。提案する連続リスク関数の$L^1$最小化により、特にマルチモーダルな確率分布を持つ視差に対して、ディープネットワークのステレオマッチング性能が向上することを示す。さらに、微分不可能な$L^1$リスク最適化のエンド・ツー・エンドのネットワーク学習を可能にするため、陰関数の定理を利用し、完全に微分可能なネットワークを確保した。包括的な分析により、KITTI 2012、KITTI 2015、ETH3D、SceneFlow、Middlebury 2014を含む様々なベンチマークデータセットにおいて、我々の手法の理論的な健全性と最先端の手法に対する優れた性能を実証する。


We introduce Stereo Risk, a new deep-learning approach to solve the classical stereo-matching problem in computer vision. As it is well-known that stereo matching boils down to a per-pixel disparity estimation problem, the popular state-of-the-art stereo-matching approaches widely rely on regressing the scene disparity values, yet via discretization of scene disparity values. Such discretization often fails to capture the nuanced, continuous nature of scene depth. Stereo Risk departs from the conventional discretization approach by formulating the scene disparity as an optimal solution to a continuous risk minimization problem, hence the name ‘stereo risk’. We demonstrate that $L^1$ minimization of the proposed continuous risk function enhances stereo-matching performance for deep networks, particularly for disparities with multi-modal probability distributions. Furthermore, to enable the end-to-end network training of the non-differentiable $L^1$ risk optimization, we exploited the implicit function theorem, ensuring a fully differentiable network. A comprehensive analysis demonstrates our method’s theoretical soundness and superior performance over the state-of-the-art methods across various benchmark datasets, including KITTI 2012, KITTI 2015, ETH3D, SceneFlow, and Middlebury 2014.


著者 Ce Liu,Suryansh Kumar,Shuhang Gu,Radu Timofte,Yao Yao,Luc Van Gool
発行日 2024-07-03 14:30:47+00:00
