Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration

要約

オールインワンの画像復元では、劣化ごとにタスク固有の非汎用モデルを使用するのではなく、統合モデルを使用してさまざまなタイプの劣化に対処します。
同じモデルを使用して複数の劣化に対処する必要があるため、より効率的な代替案への適応性に欠ける固定構成の非常に複雑な設計が生じる可能性があります。
私たちは、オールインワンの画像復元タスク用にエンコーダ/デコーダ スタイルで設計された動的ネットワーク ファミリである DyNet を提案します。
当社の DyNet は、大容量のバリアントと軽量のバリアントをシームレスに切り替えることができるため、1 回のトレーニングで効率的なモデル展開を実現する柔軟性を提供します。
このシームレスな切り替えは、アーキテクチャの中核を形成し、初期化されたモジュールの重みの再利用を容易にする重み共有メカニズムによって可能になります。
さらに、堅牢な重みの初期化を確立するために、提案された DyNet のバリアントを同時にトレーニングする動的事前トレーニング戦略を導入し、それによって GPU 時間の 50% 削減を達成します。
事前トレーニングに必要な大規模なデータセットが利用できないことに対処するために、200 万の画像サンプルを含む Million-IRD という名前の高品質、高解像度の画像データセットを厳選しました。
当社では、オールインワン設定で画像のノイズ除去、ディレイニング、かすみ除去について DyNet を検証し、ベースライン モデルと比較して GFlops で 31.34% 削減、パラメータで 56.75% 削減という最先端の結果を達成しました。
ソース コードとトレーニングされたモデルは、https://github.com/akshaydudhane16/DyNet で入手できます。

要約(オリジナル)

All-in-one image restoration tackles different types of degradations with a unified model instead of having task-specific, non-generic models for each degradation. The requirement to tackle multiple degradations using the same model can lead to high-complexity designs with fixed configuration that lack the adaptability to more efficient alternatives. We propose DyNet, a dynamic family of networks designed in an encoder-decoder style for all-in-one image restoration tasks. Our DyNet can seamlessly switch between its bulkier and lightweight variants, thereby offering flexibility for efficient model deployment with a single round of training. This seamless switching is enabled by our weights-sharing mechanism, forming the core of our architecture and facilitating the reuse of initialized module weights. Further, to establish robust weights initialization, we introduce a dynamic pre-training strategy that trains variants of the proposed DyNet concurrently, thereby achieving a 50% reduction in GPU hours. To tackle the unavailability of large-scale dataset required in pre-training, we curate a high-quality, high-resolution image dataset named Million-IRD having 2M image samples. We validate our DyNet for image denoising, deraining, and dehazing in all-in-one setting, achieving state-of-the-art results with 31.34% reduction in GFlops and a 56.75% reduction in parameters compared to baseline models. The source codes and trained models are available at https://github.com/akshaydudhane16/DyNet.

arxiv情報

著者 Akshay Dudhane,Omkar Thawakar,Syed Waqas Zamir,Salman Khan,Fahad Shahbaz Khan,Ming-Hsuan Yang
発行日 2024-04-02 17:58:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク