HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation

要約

教師なしドメイン適応(UDA)は、ターゲットドメインに追加の注釈を付けることなく、ソースドメイン(合成データなど)でトレーニングされたモデルをターゲットドメイン(実世界のデータなど)に適応させることを目的としています。
この作業は、実際のピクセル単位の注釈の取得に特に費用がかかるため、セマンティックセグメンテーションのUDAに焦点を当てています。
セマンティックセグメンテーションのUDAメソッドは通常GPUメモリを大量に消費するため、以前のほとんどのメソッドはダウンスケールされた画像でのみ動作します。
低解像度の予測では詳細を保持できないことが多いため、この設計には疑問があります。
高解像度画像のランダムなトリミングを使用したトレーニングの代替手段は、この問題を軽減しますが、長距離のドメインロバストなコンテキスト情報をキャプチャするには不十分です。
したがって、UDAのマルチ解像度トレーニングアプローチであるHRDAを提案します。これは、小さな高解像度クロップの長所を組み合わせて細かいセグメンテーションの詳細を保持し、大きな低解像度クロップを組み合わせて、学習したスケールの注意を払って長距離のコンテキスト依存関係をキャプチャします。
管理可能なGPUメモリフットプリントを維持します。
HRDAを使用すると、小さなオブジェクトを適応させ、細かいセグメンテーションの詳細を保持できます。
GTA-to-Cityscapesで5.5mIoU、Synthia-to-Cityscapesで4.9 mIoUの最先端のパフォーマンスを大幅に向上させ、それぞれ前例のない73.8mIoUと65.8mIoUを実現します。
実装はhttps://github.com/lhoyer/HRDAで入手できます。

要約(オリジナル)

Unsupervised domain adaptation (UDA) aims to adapt a model trained on the source domain (e.g. synthetic data) to the target domain (e.g. real-world data) without requiring further annotations on the target domain. This work focuses on UDA for semantic segmentation as real-world pixel-wise annotations are particularly expensive to acquire. As UDA methods for semantic segmentation are usually GPU memory intensive, most previous methods operate only on downscaled images. We question this design as low-resolution predictions often fail to preserve fine details. The alternative of training with random crops of high-resolution images alleviates this problem but falls short in capturing long-range, domain-robust context information. Therefore, we propose HRDA, a multi-resolution training approach for UDA, that combines the strengths of small high-resolution crops to preserve fine segmentation details and large low-resolution crops to capture long-range context dependencies with a learned scale attention, while maintaining a manageable GPU memory footprint. HRDA enables adapting small objects and preserving fine segmentation details. It significantly improves the state-of-the-art performance by 5.5 mIoU for GTA-to-Cityscapes and 4.9 mIoU for Synthia-to-Cityscapes, resulting in unprecedented 73.8 and 65.8 mIoU, respectively. The implementation is available at https://github.com/lhoyer/HRDA.

arxiv情報

著者 Lukas Hoyer,Dengxin Dai,Luc Van Gool
発行日 2022-07-26 15:06:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク