要約
物理ベースビジョンにおける画像復元では、手作りの合成モデルに基づく従来の脱構築的手法と比較して、エンドツーエンドの生成的手法がより有望な解決策であると考えられている。しかし、既存の生成法には定量的な性能向上の余地がまだ多く残されています。さらに決定的なことは、これらの手法は解釈可能性が弱いためにブラックボックスとみなされ、そのメカニズムや学習過程を説明しようとする理論がほとんど存在しないことである。本研究では、これらの生成法を情報理論を用いて画像復元タスクのために再解釈することを試みている。従来とは異なり、これらの手法の情報の流れを分析し、3つの情報源(抽出された高レベル情報、保持された低レベル情報、ソース入力に存在しない外部情報)がそれぞれ復元結果の生成に関与し最適化されることを明らかにした。さらに、情報ボトルネックの原理を拡張することで、それらの学習動作、最適化目的、対応する情報境界を導出した。この理論的枠組みに基づき、既存の生成手法の多くは、従来の生成タスクのために設計された一般的なモデルをそのまま適用している傾向があり、抽象化処理の過剰投入、固有の細部の損失、学習における勾配の消失やアンバランスなどの問題に悩まされる可能性があることを見出した。我々は、これらの問題を直感的かつ理論的な説明で分析し、それぞれ経験的な証拠で証明した。最終的に、上記の問題に対処するための一般的な解決策やアイデアを提案し、3つの異なる画像復元タスクの6つのデータセットで性能を向上させることでこれらのアプローチを検証した。
要約(オリジナル)
End-to-end generative methods are considered a more promising solution for image restoration in physics-based vision compared with the traditional deconstructive methods based on handcrafted composition models. However, existing generative methods still have plenty of room for improvement in quantitative performance. More crucially, these methods are considered black boxes due to weak interpretability and there is rarely a theory trying to explain their mechanism and learning process. In this study, we try to re-interpret these generative methods for image restoration tasks using information theory. Different from conventional understanding, we analyzed the information flow of these methods and identified three sources of information (extracted high-level information, retained low-level information, and external information that is absent from the source inputs) are involved and optimized respectively in generating the restoration results. We further derived their learning behaviors, optimization objectives, and the corresponding information boundaries by extending the information bottleneck principle. Based on this theoretic framework, we found that many existing generative methods tend to be direct applications of the general models designed for conventional generation tasks, which may suffer from problems including over-invested abstraction processes, inherent details loss, and vanishing gradients or imbalance in training. We analyzed these issues with both intuitive and theoretical explanations and proved them with empirical evidence respectively. Ultimately, we proposed general solutions or ideas to address the above issue and validated these approaches with performance boosts on six datasets of three different image restoration tasks.
arxiv情報
著者 | Xudong Kang,Haoran Xie,Jing Qin,Man-Leung Wong |
発行日 | 2022-12-05 12:16:27+00:00 |
arxivサイト | arxiv_id(pdf) |