MRFP: Learning Generalizable Semantic Segmentation from Sim-2-Real with Multi-Resolution Feature Perturbation

要約

ディープ ニューラル ネットワークは、ソース ドメイン上のセマンティック シーン理解タスクで模範的なパフォーマンスを示していますが、トレーニング中にスタイルの多様性がないため、単一のソース ドメイン データのみを使用して目に見えないターゲット ドメインのパフォーマンスを向上させることは依然として困難なタスクです。
シミュレートされたデータの生成は、煩雑で予算がかかるプロセスであるため、大規模でスタイルが多様な現実世界のデータセットを取得する代替手段として実行可能です。
ただし、シミュレートされたデータと現実世界のデータの間にはドメイン固有の大きな不一致があるため、セマンティック セグメンテーションにおける一般化に重大な課題が生じています。
この研究では、この問題を軽減するために、ドメイン固有の細かい特徴をランダム化し、粗い特徴のスタイルを摂動する新しいマルチ解像度特徴摂動 (MRFP) 手法を提案します。
さまざまな都市シーンのセグメンテーション データセットに関する実験結果は、セマンティック セグメンテーション モデルのドメイン不変のロバストな特徴マップを学習するには、スタイル情報の摂動に加えて、微細特徴コンポーネントの摂動が最も重要であることを明確に示しています。
MRFP は、追加の学習可能なパラメーターや目的関数を持たない、シンプルで計算効率の高い転送可能なモジュールであり、最先端のディープ ニューラル ネットワークがシミュレーションから実際のセマンティック セグメンテーションに向けた堅牢なドメイン不変特徴を学習するのに役立ちます。

要約(オリジナル)

Deep neural networks have shown exemplary performance on semantic scene understanding tasks on source domains, but due to the absence of style diversity during training, enhancing performance on unseen target domains using only single source domain data remains a challenging task. Generation of simulated data is a feasible alternative to retrieving large style-diverse real-world datasets as it is a cumbersome and budget-intensive process. However, the large domain-specfic inconsistencies between simulated and real-world data pose a significant generalization challenge in semantic segmentation. In this work, to alleviate this problem, we propose a novel MultiResolution Feature Perturbation (MRFP) technique to randomize domain-specific fine-grained features and perturb style of coarse features. Our experimental results on various urban-scene segmentation datasets clearly indicate that, along with the perturbation of style-information, perturbation of fine-feature components is paramount to learn domain invariant robust feature maps for semantic segmentation models. MRFP is a simple and computationally efficient, transferable module with no additional learnable parameters or objective functions, that helps state-of-the-art deep neural networks to learn robust domain invariant features for simulation-to-real semantic segmentation.

arxiv情報

著者 Sumanth Udupa,Prajwal Gurunath,Aniruddh Sikdar,Suresh Sundaram
発行日 2024-03-28 13:27:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク