DDColor: Towards Photo-Realistic and Semantic-Aware Image Colorization via Dual Decoders

要約

タイトル:DDColor:デュアルデコーダを用いた写真のような意味に即した画像の色つけに向けて

要約:

– 自動画像色つけは困難であるため、深層ニューラルネットワークを直接学習する場合、誤った意味の色や色の豊かさが低い結果になることが多い。
– 最近のトランスフォーマーベースの方法は、より良い結果を提供できるが、手動のデザインされた事前知識に頼っており、実装が難しく、一般化能力が低い傾向がある。
– DDColorは、デュアルデコーダを用いた画像の色つけに対する新しいエンドツーエンドの方法である。これにより、複数スケールの画像特徴を活用して適応的な色クエリの最適化を誘導することができる。
– DDColorは、スパースで注意力のあるデコーダを利用して、色と意味表現の相関を確立し、色と意味表現を結びつける。また、簡単で効果的な「彩度ロス」を導入し、生成された結果の色の豊かさをさらに向上させている。
– DDColorは、量的・質的にわたって、既存の最先端の作品に比べて、はるかに優れたパフォーマンスを発揮し、パブリックリリースされている(https://github.com/piddnad/DDColor)。

要約(オリジナル)

Automatic image colorization is a challenging problem. Due to the high illness and multi-modal uncertainty, directly training a deep neural network usually leads to incorrect semantic colors and low color richness. Recent transformer-based methods can deliver better results, but they often rely on manually designed priors, which are hard to implement and suffer from poor generalization ability. Moreover, they tend to introduce serious color bleeding effects since color attention is performed on single-scale features, thus fail to exploit sufficient semantic information. To address these issues, we propose DDColor, a new end-to-end method with dual decoders for image colorization. Our approach includes a multi-scale image decoder and a transformer-based color decoder. The former restores the spatial resolution of the image, while the latter establishes the correlation between color and semantic representations via cross-attention. Rather than using additional priors, our two decoders work together to leverage multi-scale image features to guide optimization of adaptive color queries, significantly alleviating color bleeding effects. In addition, a simple yet effective colorfulness loss is introduced to further enhance the color richness of generated results. Our extensive experiments demonstrate that DDColor achieves significantly superior performance to existing state-of-the-art works both quantitatively and qualitatively. Codes will be made publicly available at https://github.com/piddnad/DDColor.

arxiv情報

著者 Xiaoyang Kang,Tao Yang,Wenqi Ouyang,Peiran Ren,Lingzhi Li,Xuansong Xie
発行日 2023-04-12 06:32:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク