L-MAE: Masked Autoencoders are Semantic Segmentation Datasets Augmenter

要約

セマンティック セグメンテーション データセットの生成は、特に大規模なモデルや特殊なドメイン (医療画像処理やリモート センシングなど) のコンテキストにおいて、一貫して手間と時間がかかります。
具体的には、大規模なモデルにはかなりの量のデータが必要ですが、専門分野のデータセットには分野の専門家の関与が必要になることがよくあります。
どちらのシナリオも不正確なデータのラベル付けの影響を受けやすく、トレーニングされたモデルの最終的なパフォーマンスに大きな影響を与える可能性があります。
この論文では、ラベル内の既存の情報を完全に使用して完全なラベルを生成する、シンプルで効果的なラベル ピクセル レベルの補完手法 \textbf{Label Mask AutoEncoder} (L-MAE) を提案します。
提案されたモデルは、マスク自動エンコーダーを下流タスクに適用した最初のモデルです。
詳細には、L-MAE は、ラベルと対応する画像をスタックするフュージョン戦略、つまりフューズ マップを採用しています。
さらに、ヒューズ マップをマスクするときに画像情報の一部が失われるため、直接再構築するとパフォーマンスが低下する可能性があります。
私たちは、マスク再構築プロセス中に欠落している情報を補うイメージ パッチ サプリメント アルゴリズムを提案し、平均 4.1\% mIoU を改善できることが経験的にわかりました。
データセットを完成させるための L-MAE の有効性を評価する実験を実施しました。
劣化した Pascal VOC データセットと、L-MAE によって強化された劣化したデータセットを使用して、最初の実験セットに対して同一の従来のセマンティック セグメンテーション モデルをトレーニングしました。
これらの実験の結果は、L-MAE 強化データセットを使用してトレーニングされたモデルでは、強化されていないデータセットと比較して 13.5\% のパフォーマンス向上を示しています。

要約(オリジナル)

Generating semantic segmentation datasets has consistently been laborious and time-consuming, particularly in the context of large models or specialized domains(i.e. Medical Imaging or Remote Sensing). Specifically, large models necessitate a substantial volume of data, while datasets in professional domains frequently require the involvement of domain experts. Both scenarios are susceptible to inaccurate data labeling, which can significantly affect the ultimate performance of the trained model. This paper proposes a simple and effective label pixel-level completion method, \textbf{Label Mask AutoEncoder} (L-MAE), which fully uses the existing information in the label to generate the complete label. The proposed model are the first to apply the Mask Auto-Encoder to downstream tasks. In detail, L-MAE adopts the fusion strategy that stacks the label and the corresponding image, namely fuse map. Moreover, since some of the image information is lost when masking the fuse map, direct reconstruction may lead to poor performance. We proposed Image Patch Supplement algorithm to supplement the missing information during the mask-reconstruct process, and empirically found that an average of 4.1\% mIoU can be improved. We conducted a experiment to evaluate the efficacy of L-MAE to complete the dataset. We employed a degraded Pascal VOC dataset and the degraded dataset enhanced by L-MAE to train an identical conventional semantic segmentation model for the initial set of experiments. The results of these experiments demonstrate a performance enhancement of 13.5\% in the model trained with the L-MAE-enhanced dataset compared to the unenhanced dataset.

arxiv情報

著者 Jiaru Jia,Mingzhe Liu,Jiake Xie,Xin Chen,Hong Zhang,Feixiang Zhao,Aiqing Yang
発行日 2023-10-01 07:25:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク