DDColor: Towards Photo-Realistic Image Colorization via Dual Decoders

要約

画像のカラー化は、マルチモーダルな不確実性と高い姿勢不良のため、困難な問題です。
ディープ ニューラル ネットワークを直接トレーニングすると、通常、セマンティック カラーが不正確になり、色の豊富さが低下します。
トランスフォーマーベースの方法はより良い結果を提供できますが、手動で設計された事前分布に依存することが多く、汎化能力が低く、色のにじみ効果が生じます。
これらの問題に対処するために、画像の色付けのためのデュアル デコーダを備えたエンドツーエンドの方法である DDColor を提案します。
私たちのアプローチには、ピクセル デコーダとクエリベースのカラー デコーダが含まれています。
前者は画像の空間解像度を復元し、後者は豊富な視覚機能を利用してカラー クエリを洗練し、手動で作成された事前設定を回避します。
2 つのデコーダーが連携して、クロスアテンションを通じて色とマルチスケールの意味表現の間の相関関係を確立し、色のにじみの影響を大幅に軽減します。
さらに、色の豊かさを高めるために、シンプルかつ効果的な色彩損失が導入されています。
広範な実験により、DDColor が量的および質的に既存の最先端の作品よりも優れたパフォーマンスを達成することが実証されました。
コードとモデルは https://github.com/piddnad/DDColor で公開されています。

要約(オリジナル)

Image colorization is a challenging problem due to multi-modal uncertainty and high ill-posedness. Directly training a deep neural network usually leads to incorrect semantic colors and low color richness. While transformer-based methods can deliver better results, they often rely on manually designed priors, suffer from poor generalization ability, and introduce color bleeding effects. To address these issues, we propose DDColor, an end-to-end method with dual decoders for image colorization. Our approach includes a pixel decoder and a query-based color decoder. The former restores the spatial resolution of the image, while the latter utilizes rich visual features to refine color queries, thus avoiding hand-crafted priors. Our two decoders work together to establish correlations between color and multi-scale semantic representations via cross-attention, significantly alleviating the color bleeding effect. Additionally, a simple yet effective colorfulness loss is introduced to enhance the color richness. Extensive experiments demonstrate that DDColor achieves superior performance to existing state-of-the-art works both quantitatively and qualitatively. The codes and models are publicly available at https://github.com/piddnad/DDColor.

arxiv情報

著者 Xiaoyang Kang,Tao Yang,Wenqi Ouyang,Peiran Ren,Lingzhi Li,Xuansong Xie
発行日 2023-08-15 12:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク