Unsupervised Variational Translator for Bridging Image Restoration and High-Level Vision Tasks

要約

最近の研究では、画像復元機能を人間の知覚から機械の知覚まで拡張し、それによって劣化した環境における高レベルの視覚タスクのパフォーマンスを向上させることが試みられています。
これらの方法は主に教師あり学習に基づいており、通常、復元ネットワークまたは高レベルのビジョン ネットワークの再トレーニングが含まれます。
ただし、現実のシナリオでペアのデータを収集し、大規模なモデルを再トレーニングするのは困難です。
この目的を達成するために、既存の修復ネットワークと高レベルのビジョン ネットワークを再トレーニングする必要のない \textbf{Va}riational \textbf{T}ranslator (VaT) と呼ばれる教師なし学習手法を提案します。
代わりに、それらの間の中間ブリッジとして機能する軽量ネットワークを確立します。
変分推論により、VaT は復元出力と高レベル ビジョン入力の結合分布を近似し、最適化の目的をコンテンツの保存と高レベル ビジョン タスクに関連する周辺尤度の最大化に分割します。
自己トレーニング パラダイムを巧みに活用することで、VaT はラベルを必要とせずに上記の最適化目標を達成します。
その結果、翻訳された画像は元のコンテンツとの類似性を維持しながら、高レベルの視覚タスクでも優れたパフォーマンスを発揮します。
検出と分類のためのかすみ除去と低照度強化に関する広範な実験により、他の最先端の教師なし対応法よりも本手法が優れていることが示され、一部の複雑な現実世界のシナリオでは教師あり手法を大幅に上回っています。

要約(オリジナル)

Recent research tries to extend image restoration capabilities from human perception to machine perception, thereby enhancing the performance of high-level vision tasks in degraded environments. These methods, primarily based on supervised learning, typically involve the retraining of restoration networks or high-level vision networks. However, collecting paired data in real-world scenarios and retraining large-scale models are challenge. To this end, we propose an unsupervised learning method called \textbf{Va}riational \textbf{T}ranslator (VaT), which does not require retraining existing restoration and high-level vision networks. Instead, it establishes a lightweight network that serves as an intermediate bridge between them. By variational inference, VaT approximates the joint distribution of restoration output and high-level vision input, dividing the optimization objective into preserving content and maximizing marginal likelihood associated with high-level vision tasks. By cleverly leveraging self-training paradigms, VaT achieves the above optimization objective without requiring labels. As a result, the translated images maintain a close resemblance to their original content while also demonstrating exceptional performance on high-level vision tasks. Extensive experiments in dehazing and low-light enhancement for detection and classification show the superiority of our method over other state-of-the-art unsupervised counterparts, even significantly surpassing supervised methods in some complex real-world scenarios.

arxiv情報

著者 Jiawei Wu,Zhi Jin
発行日 2024-08-15 13:35:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク