要約
高密度予測には、高解像度と高度なセマンティック表現の両方が不可欠です。
経験的に、低解像度の特徴マップはより強力なセマンティック表現を実現することが多く、高解像度の特徴マップは通常、エッジなどの局所的な特徴をより適切に識別できますが、含まれるセマンティック情報は弱くなります。
HRNet などの既存の最先端のフレームワークは、低解像度と高解像度の機能マップを並行して保持し、異なる解像度間で情報を繰り返し交換しています。
ただし、最も解像度の低い特徴マップには最も強力なセマンティック情報が含まれていることが多く、高解像度の特徴マップとマージするにはより多くのレイヤーを通過する必要があると考えていますが、高解像度の特徴マップの場合、各畳み込みの計算コストは
レイヤーは非常に大きく、それほど多くのレイヤーを通過する必要はありません。
したがって、U 字型の高解像度ネットワーク (U-HRNet) を設計しました。これは、機能マップの後に最強のセマンティック表現でステージを追加し、新しく追加されたステージに対してすべての解像度を並列に計算する必要があるという HRNet の制約を緩和します。
低解像度の特徴マップにより多くの計算が割り当てられるため、全体的なセマンティック表現が大幅に改善されます。
U-HRNet は HRNet バックボーンに代わるものであり、まったく同じトレーニングと推論の設定で、計算量をほとんど増やすことなく、複数のセマンティック セグメンテーションと深度予測データセットを大幅に改善できます。
コードは PaddleSeg (https://github.com/PaddlePaddle/PaddleSeg) で入手できます。
要約(オリジナル)
High resolution and advanced semantic representation are both vital for dense prediction. Empirically, low-resolution feature maps often achieve stronger semantic representation, and high-resolution feature maps generally can better identify local features such as edges, but contains weaker semantic information. Existing state-of-the-art frameworks such as HRNet has kept low-resolution and high-resolution feature maps in parallel, and repeatedly exchange the information across different resolutions. However, we believe that the lowest-resolution feature map often contains the strongest semantic information, and it is necessary to go through more layers to merge with high-resolution feature maps, while for high-resolution feature maps, the computational cost of each convolutional layer is very large, and there is no need to go through so many layers. Therefore, we designed a U-shaped High-Resolution Network (U-HRNet), which adds more stages after the feature map with strongest semantic representation and relaxes the constraint in HRNet that all resolutions need to be calculated parallel for a newly added stage. More calculations are allocated to low-resolution feature maps, which significantly improves the overall semantic representation. U-HRNet is a substitute for the HRNet backbone and can achieve significant improvement on multiple semantic segmentation and depth prediction datasets, under the exactly same training and inference setting, with almost no increasing in the amount of calculation. Code is available at PaddleSeg: https://github.com/PaddlePaddle/PaddleSeg.
arxiv情報
著者 | Jian Wang,Xiang Long,Guowei Chen,Zewu Wu,Zeyu Chen,Errui Ding |
発行日 | 2022-10-13 16:25:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google