Let’s Enhance: A Deep Learning Approach to Extreme Deblurring of Text Images

要約

この作業は、画像のブレ除去の逆問題のための新しい深層学習ベースのパイプラインを提示し、増強と合成データによる事前トレーニングを活用します。
私たちの結果は、最近の Helsinki Deblur Challenge 2021 への提出を勝ち取ったことに基づいています。その目標は、現実世界のデータ設定で最先端のブレ除去アルゴリズムの限界を探ることでした。
課題のタスクは、ランダムなテキストの焦点が合っていない画像をぼかすことでした。これにより、下流のタスクで、光学式文字認識ベースのスコア関数を最大化しました。
私たちのソリューションの重要なステップは、ぼかしプロセスを記述する物理順モデルのデータ駆動型推定です。
これにより、合成データのストリームが有効になり、グラウンド トゥルースとぼやけた画像のペアがオンザフライで生成されます。これは、提供された少量のチャレンジ データを大幅に増強するために使用されます。
実際のブレ除去パイプラインは、ラジアル レンズ歪み (推定されたフォワード モデルによって決定される) の近似反転と、エンドツーエンドでトレーニングされる U-Net アーキテクチャで構成されます。
私たちのアルゴリズムは、最も難しいチャレンジ レベルを通過した唯一のアルゴリズムであり、70% を超える文字認識精度を達成しました。
私たちの調査結果は、データ中心の機械学習のパラダイムとよく一致しており、逆問題のコンテキストでその有効性を示しています。
方法論の詳細なプレゼンテーションとは別に、一連のアブレーション研究におけるいくつかの設計選択の重要性も分析します。
チャレンジ提出のコードは、https://github.com/theophil-trippe/HDC_TUBerlin_version_1 で入手できます。

要約(オリジナル)

This work presents a novel deep-learning-based pipeline for the inverse problem of image deblurring, leveraging augmentation and pre-training with synthetic data. Our results build on our winning submission to the recent Helsinki Deblur Challenge 2021, whose goal was to explore the limits of state-of-the-art deblurring algorithms in a real-world data setting. The task of the challenge was to deblur out-of-focus images of random text, thereby in a downstream task, maximizing an optical-character-recognition-based score function. A key step of our solution is the data-driven estimation of the physical forward model describing the blur process. This enables a stream of synthetic data, generating pairs of ground-truth and blurry images on-the-fly, which is used for an extensive augmentation of the small amount of challenge data provided. The actual deblurring pipeline consists of an approximate inversion of the radial lens distortion (determined by the estimated forward model) and a U-Net architecture, which is trained end-to-end. Our algorithm was the only one passing the hardest challenge level, achieving over 70% character recognition accuracy. Our findings are well in line with the paradigm of data-centric machine learning, and we demonstrate its effectiveness in the context of inverse problems. Apart from a detailed presentation of our methodology, we also analyze the importance of several design choices in a series of ablation studies. The code of our challenge submission is available under https://github.com/theophil-trippe/HDC_TUBerlin_version_1.

arxiv情報

著者 Theophil Trippe,Martin Genzel,Jan Macdonald,Maximilian März
発行日 2022-11-18 09:06:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 68T20, 94A08, cs.CV, cs.LG, cs.NA, math.NA パーマリンク