Efficient Multi-task Uncertainties for Joint Semantic Segmentation and Monocular Depth Estimation

要約

予測の不確実性を定量化することは、多くの場合計算コストがかかるものの、ディープ ニューラル ネットワークの過信や説明可能性と堅牢性の欠如などの一般的な課題に対する可能な解決策として浮上しました。
現実世界のアプリケーションの多くは本質的にマルチモーダルであるため、マルチタスク学習の恩恵を受けます。
たとえば、自動運転では、セマンティック セグメンテーションと単眼奥行き推定を組み合わせたソリューションが有益であることが証明されています。
この研究では、まず、さまざまな不確実性定量化手法を統合セマンティック セグメンテーションおよび単眼奥行き推定と組み合わせて、それらが相互にどのように機能するかを比較して評価します。
さらに、両方のタスクを個別に解決する場合と比較して、不確実性の質に関してマルチタスク学習の利点を明らかにします。
これらの洞察に基づいて、共同セマンティック セグメンテーションと単眼深さ推定、および効率的なマルチタスクの不確実性定量化のための新しい生徒と教師の蒸留アプローチである EMUFormer を紹介します。
教師の予測不確実性を暗黙的に活用することで、EMUFormer は Cityscapes と NYUv2 で新しい最先端の結果を達成し、さらに、両方のタスクについて、次数にもかかわらず、Deep Ensemble と同等またはそれより優れた高品質の予測不確実性を推定します。
大きさがより効率的になります。

要約(オリジナル)

Quantifying the predictive uncertainty emerged as a possible solution to common challenges like overconfidence or lack of explainability and robustness of deep neural networks, albeit one that is often computationally expensive. Many real-world applications are multi-modal in nature and hence benefit from multi-task learning. In autonomous driving, for example, the joint solution of semantic segmentation and monocular depth estimation has proven to be valuable. In this work, we first combine different uncertainty quantification methods with joint semantic segmentation and monocular depth estimation and evaluate how they perform in comparison to each other. Additionally, we reveal the benefits of multi-task learning with regard to the uncertainty quality compared to solving both tasks separately. Based on these insights, we introduce EMUFormer, a novel student-teacher distillation approach for joint semantic segmentation and monocular depth estimation as well as efficient multi-task uncertainty quantification. By implicitly leveraging the predictive uncertainties of the teacher, EMUFormer achieves new state-of-the-art results on Cityscapes and NYUv2 and additionally estimates high-quality predictive uncertainties for both tasks that are comparable or superior to a Deep Ensemble despite being an order of magnitude more efficient.

arxiv情報

著者 Steven Landgraf,Markus Hillemann,Theodor Kapler,Markus Ulrich
発行日 2024-02-16 11:09:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク