A Re-Parameterized Vision Transformer (ReVT) for Domain-Generalized Semantic Segmentation

要約

セマンティック セグメンテーションのタスクでは、画像の各ピクセルにセマンティック ラベルを割り当てるモデルが必要です。
ただし、このようなモデルのパフォーマンスは、トレーニング ドメインと比較してデータ分布が異なる目に見えないドメインにデプロイされると低下します。
トレーニング後に複数のモデルの重み平均を行う再パラメータ化ビジョントランスフォーマー(ReVT)を使用した、セマンティックセグメンテーションのドメイン一般化に対する新しい拡張主導のアプローチを紹介します。
いくつかのベンチマーク データセットでアプローチを評価し、一般的に使用されるベンチマークで小規模モデルで 47.3% (従来技術: 46.3%)、中型モデルで 50.1% (従来技術: 47.8%) という最先端の mIoU パフォーマンスを達成しました。
データセット。
同時に、我々の方法は必要なパラメータが少なく、最良の従来技術よりも高いフレームレートに達します。
また、実装も簡単で、ネットワーク アンサンブルとは異なり、推論中に計算の複雑さが追加されることはありません。

要約(オリジナル)

The task of semantic segmentation requires a model to assign semantic labels to each pixel of an image. However, the performance of such models degrades when deployed in an unseen domain with different data distributions compared to the training domain. We present a new augmentation-driven approach to domain generalization for semantic segmentation using a re-parameterized vision transformer (ReVT) with weight averaging of multiple models after training. We evaluate our approach on several benchmark datasets and achieve state-of-the-art mIoU performance of 47.3% (prior art: 46.3%) for small models and of 50.1% (prior art: 47.8%) for midsized models on commonly used benchmark datasets. At the same time, our method requires fewer parameters and reaches a higher frame rate than the best prior art. It is also easy to implement and, unlike network ensembles, does not add any computational complexity during inference.

arxiv情報

著者 Jan-Aike Termöhlen,Timo Bartels,Tim Fingscheidt
発行日 2023-08-25 12:06:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク