要約
最近、学習ベースのステレオマッチング方法により、パブリックベンチマークが大幅に改善されました。ソフトアラッグとスムーズなL1損失が成功に貢献しています。
ただし、監視されていないドメイン適応シナリオでは、これら2つの操作がターゲットドメインにマルチモーダル格差確率分布をもたらし、一般化が劣化することが多いことがわかります。
この論文では、この問題に対処するために、新しいアプローチ、マルチモーダル分布(CMD)を制約することを提案します。
具体的には、\ textit {不確実性の正規化}および\ textit {anisotropic soft argmin}を導入して、ネットワークがターゲットドメインで主に非モーダルな格差分布を生成し、それによって予測精度を向上させます。
実験的に、提案された方法を複数の代表的なステレオマッチングネットワークに適用し、合成データから非標識現実世界シーンにドメイン適応を実施します。
結果は、トップパフォーマンスとドメインに適応可能なステレオマッチングモデルの両方で、一般化の改善を一貫して示しています。
CMDのコードは、\ href {https://github.com/gallenszl/cmd} {https://github.com/gallenszl/cmd}で利用できます。
要約(オリジナル)
Recently, learning-based stereo matching methods have achieved great improvement in public benchmarks, where soft argmin and smooth L1 loss play a core contribution to their success. However, in unsupervised domain adaptation scenarios, we observe that these two operations often yield multimodal disparity probability distributions in target domains, resulting in degraded generalization. In this paper, we propose a novel approach, Constrain Multi-modal Distribution (CMD), to address this issue. Specifically, we introduce \textit{uncertainty-regularized minimization} and \textit{anisotropic soft argmin} to encourage the network to produce predominantly unimodal disparity distributions in the target domain, thereby improving prediction accuracy. Experimentally, we apply the proposed method to multiple representative stereo-matching networks and conduct domain adaptation from synthetic data to unlabeled real-world scenes. Results consistently demonstrate improved generalization in both top-performing and domain-adaptable stereo-matching models. The code for CMD will be available at: \href{https://github.com/gallenszl/CMD}{https://github.com/gallenszl/CMD}.
arxiv情報
著者 | Zhelun Shen,Zhuo Li,Chenming Wu,Zhibo Rao,Lina Liu,Yuchao Dai,Liangjun Zhang |
発行日 | 2025-04-30 04:23:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google