A Modular System for Enhanced Robustness of Multimedia Understanding Networks via Deep Parametric Estimation

要約

マルチメディア理解タスクでは、破損したサンプルが機械学習モデルに供給されるとパフォーマンスの低下につながるため、重大な課題が生じます。
これまでに、ノイズを含むデータを処理するための 3 つのグループのアプローチが提案されてきました。i) ノイズを含むデータの品質を向上させるエンハンサーおよびデノイザー モジュール、ii) データ拡張アプローチ、および iii) ドメイン適応戦略です。
前述のすべてのアプローチには、適用性を制限する欠点があります。
1 つ目は計算コストが高く、トレーニングには完全に破損したデータのペアが必要ですが、他のものはトレーニングされたのと同じタスク/ネットワークのデプロイメントのみを許可します (つまり、上流と下流のタスク/ネットワークが同じ場合)。
本稿では、これらの欠点を解決するために SymMPIE を提案します。
この目的を達成するために、最小限の計算コストで堅牢なダウンストリーム マルチメディア理解のために入力データを強化する、小型、モジュール式、効率的な (フル HD 画像を処理するのにわずか 2GFLOP) システムを設計します。
私たちの SyMPIE は、下流のタスク/ネットワークと一致すべきではない上流のタスク/ネットワークで事前トレーニングされており、クリーンで破損したサンプルのペアは必要ありません。
私たちの重要な洞察は、現実世界のタスクで見つかるほとんどの入力破損は、画像のカラー チャネルや小さなカーネルを使用した空間フィルターに対するグローバル操作を通じてモデル化できるということです。
画像分類 (ImageNetC、ImageNetC-Bar、VizWiz、ImageNetC-mixed という新しく提案された混合破損ベンチマーク) やセマンティック セグメンテーション (Cityscapes、ACDC、DarkZurich) などの複数のデータセットとタスクに対するアプローチを一貫した方法で検証します。
全体的に相対精度が約 5\% 向上しました。
私たちのアプローチのコードと新しい ImageNetC 混合ベンチマークは、公開され次第利用可能になります。

要約(オリジナル)

In multimedia understanding tasks, corrupted samples pose a critical challenge, because when fed to machine learning models they lead to performance degradation. In the past, three groups of approaches have been proposed to handle noisy data: i) enhancer and denoiser modules to improve the quality of the noisy data, ii) data augmentation approaches, and iii) domain adaptation strategies. All the aforementioned approaches come with drawbacks that limit their applicability; the first has high computational costs and requires pairs of clean-corrupted data for training, while the others only allow deployment of the same task/network they were trained on (\ie, when upstream and downstream task/network are the same). In this paper, we propose SyMPIE to solve these shortcomings. To this end, we design a small, modular, and efficient (just 2GFLOPs to process a Full HD image) system to enhance input data for robust downstream multimedia understanding with minimal computational cost. Our SyMPIE is pre-trained on an upstream task/network that should not match the downstream ones and does not need paired clean-corrupted samples. Our key insight is that most input corruptions found in real-world tasks can be modeled through global operations on color channels of images or spatial filters with small kernels. We validate our approach on multiple datasets and tasks, such as image classification (on ImageNetC, ImageNetC-Bar, VizWiz, and a newly proposed mixed corruption benchmark named ImageNetC-mixed) and semantic segmentation (on Cityscapes, ACDC, and DarkZurich) with consistent improvements of about 5\% relative accuracy gain across the board. The code of our approach and the new ImageNetC-mixed benchmark will be made available upon publication.

arxiv情報

著者 Francesco Barbato,Umberto Michieli,Mehmet Karim Yucel,Pietro Zanuttigh,Mete Ozay
発行日 2024-02-28 15:24:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク