Rethinking Cross-Entropy Loss for Stereo Matching Networks

要約

ステレオマッチングにおけるディープラーニングは大きな成功を収めましたが、正確で輪郭が明確な視差マップを復元することは依然として困難です。
現在、L1 損失とクロスエントロピー損失は、ステレオ マッチング ネットワークのトレーニングに最も広く使用されている 2 つの損失関数です。
前者と比較すると、後者はコスト量に対する直接的な制約のおかげで、通常、より良い結果を達成できます。
ただし、この損失関数の合理的なグラウンドトゥルース分布を生成する方法は、ほとんど開発されていないままです。
既存の研究では、すべてのピクセルのグラウンドトゥルースの周囲に単峰性分布があると仮定しており、エッジ ピクセルが多峰性分布を持つ可能性があるという事実が無視されています。
この論文では、まず全体的な視差精度に対する正しいエッジ監視の重要性を実験的に示します。
次に、ネットワークがエッジピクセルと非エッジピクセルに対して異なる分布パターンを生成することを促進する、新しい適応マルチモーダルクロスエントロピー損失が提案されます。
推論段階で視差推定量をさらに最適化し、エッジでのにじみや位置ずれのアーティファクトを軽減します。
私たちの方法は汎用的であり、古典的なステレオマッチングモデルが競争力のあるパフォーマンスを取り戻すのに役立ちます。
私たちの損失によってトレーニングされた GANet は、KITTI 2015 および 2012 ベンチマークで 1 位にランクされ、最先端の手法を大幅に上回りました。
一方、私たちの手法は優れたクロスドメイン汎化能力も示し、4つの一般的な現実世界のデータセットに対して既存の汎化に特化した手法を上回ります。

要約(オリジナル)

Despite the great success of deep learning in stereo matching, recovering accurate and clearly-contoured disparity map is still challenging. Currently, L1 loss and cross-entropy loss are the two most widely used loss functions for training the stereo matching networks. Comparing with the former, the latter can usually achieve better results thanks to its direct constraint to the the cost volume. However, how to generate reasonable ground-truth distribution for this loss function remains largely under exploited. Existing works assume uni-modal distributions around the ground-truth for all of the pixels, which ignores the fact that the edge pixels may have multi-modal distributions. In this paper, we first experimentally exhibit the importance of correct edge supervision to the overall disparity accuracy. Then a novel adaptive multi-modal cross-entropy loss which encourages the network to generate different distribution patterns for edge and non-edge pixels is proposed. We further optimize the disparity estimator in the inference stage to alleviate the bleeding and misalignment artifacts at the edge. Our method is generic and can help classic stereo matching models regain competitive performance. GANet trained by our loss ranks 1st on the KITTI 2015 and 2012 benchmarks and outperforms state-of-the-art methods by a large margin. Meanwhile, our method also exhibits superior cross-domain generalization ability and outperforms existing generalization-specialized methods on four popular real-world datasets.

arxiv情報

著者 Peng Xu,Zhiyu Xiang,Chenyu Qiao,Jingyun Fu,Xijun Zhao
発行日 2023-06-27 16:53:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク