要約
密な深度および表面法線予測子は、トリミングとサイズ変更と同等の特性を備えている必要があります。つまり、入力画像をトリミングすると、同じ出力画像がトリミングされる必要があります。
しかし、最先端の深度予測子と法線予測子は、優れたパフォーマンスを備えているにもかかわらず、驚くべきことに等分散性を尊重していないことがわかりました。
この問題は、トレーニング中にトリミングとサイズ変更によるデータ拡張が使用される場合でも存在します。
これを解決するために、平均化手順と自己無矛盾性損失から構成される等変正則化手法を提案し、深さと通常のネットワークにおけるトリミングとサイズ変更の等変性を明示的に促進します。
私たちのアプローチは CNN と Transformer アーキテクチャの両方に適用でき、テスト中に追加のコストが発生せず、Taskonomy タスクにおける高密度予測子の教師ありおよび半教師あり学習パフォーマンスを著しく向上させます。
最後に、ラベルなし画像の損失を微調整することで、等分散性だけでなく、NYU-v2 で評価した場合の最先端の深度と法線予測子の精度も向上します。
GitHub リンク: https://github.com/mikuhatsune/equivariance
要約(オリジナル)
Dense depth and surface normal predictors should possess the equivariant property to cropping-and-resizing — cropping the input image should result in cropping the same output image. However, we find that state-of-the-art depth and normal predictors, despite having strong performances, surprisingly do not respect equivariance. The problem exists even when crop-and-resize data augmentation is employed during training. To remedy this, we propose an equivariant regularization technique, consisting of an averaging procedure and a self-consistency loss, to explicitly promote cropping-and-resizing equivariance in depth and normal networks. Our approach can be applied to both CNN and Transformer architectures, does not incur extra cost during testing, and notably improves the supervised and semi-supervised learning performance of dense predictors on Taskonomy tasks. Finally, finetuning with our loss on unlabeled images improves not only equivariance but also accuracy of state-of-the-art depth and normal predictors when evaluated on NYU-v2. GitHub link: https://github.com/mikuhatsune/equivariance
arxiv情報
著者 | Yuanyi Zhong,Anand Bhattad,Yu-Xiong Wang,David Forsyth |
発行日 | 2023-10-17 17:54:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google