要約
グローバル平均プーリングなどのグローバル操作は、最高性能のイメージ復元ツールで広く使用されています。
空間次元全体に沿って入力フィーチャからグローバル情報を集約しますが、画像復元タスクでのトレーニングと推論中の動作は異なります。つまり、トリミングされたパッチ (画像から) とフル解像度の画像という異なる領域に基づいています。
このホワイトペーパーでは、グローバルな情報集約を再検討し、推論中の画像ベースの特徴がトレーニング中のパッチベースの特徴とは異なる分布を持っていることを発見しました。
このトレーニングとテストの不一致は、モデルのパフォーマンスに悪影響を及ぼしますが、これは以前の研究では見過ごされていました。
不整合を減らし、テスト時間のパフォーマンスを向上させるために、テスト時間ローカル コンバーター (TLC) と呼ばれる簡単な方法を提案します。
私たちの TLC は、推論中にのみグローバル操作をローカル操作に変換するため、大きな画像全体ではなくローカル空間領域内の特徴を集約します。
提案された方法は、ごくわずかなコストでさまざまなグローバルモジュール(正規化、チャネル、空間注意など)に適用できます。
微調整を一切必要とせずに、TLC は、単一画像のモーションブレ除去、ビデオブレ除去、デフォーカスブレ除去、画像ノイズ除去など、いくつかの画像復元タスクで最先端の結果を改善します。
特に、TLC を使用すると、当社の Restormer-Local は、GoPro データセットで 32.92 dB から 33.57 dB の単一画像ブレ除去で最先端の結果を改善します。
コードは https://github.com/megvii-research/tlc で入手できます。
要約(オリジナル)
Global operations, such as global average pooling, are widely used in top-performance image restorers. They aggregate global information from input features along entire spatial dimensions but behave differently during training and inference in image restoration tasks: they are based on different regions, namely the cropped patches (from images) and the full-resolution images. This paper revisits global information aggregation and finds that the image-based features during inference have a different distribution than the patch-based features during training. This train-test inconsistency negatively impacts the performance of models, which is severely overlooked by previous works. To reduce the inconsistency and improve test-time performance, we propose a simple method called Test-time Local Converter (TLC). Our TLC converts global operations to local ones only during inference so that they aggregate features within local spatial regions rather than the entire large images. The proposed method can be applied to various global modules (e.g., normalization, channel and spatial attention) with negligible costs. Without the need for any fine-tuning, TLC improves state-of-the-art results on several image restoration tasks, including single-image motion deblurring, video deblurring, defocus deblurring, and image denoising. In particular, with TLC, our Restormer-Local improves the state-of-the-art result in single image deblurring from 32.92 dB to 33.57 dB on GoPro dataset. The code is available at https://github.com/megvii-research/tlc.
arxiv情報
著者 | Xiaojie Chu,Liangyu Chen,Chengpeng Chen,Xin Lu |
発行日 | 2022-08-02 16:21:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google