要約
画像の自動カラー化は、特に困難な問題です。
問題の病気とマルチモーダルの不確実性が高いため、ディープ ニューラル ネットワークを直接トレーニングすると、通常、セマンティック カラーが不正確になり、カラー リッチネスが低下します。
既存の変換器ベースの方法は、より良い結果を提供できますが、手作業で作成されたデータセット レベルの経験的分布の事前分布に大きく依存しています。
この作業では、画像の色付けのために、デュアルデコーダーを使用した新しいエンドツーエンドの方法である DDColor を提案します。
より具体的には、マルチスケール画像デコーダと変換器ベースのカラー デコーダを設計します。
前者は画像の空間解像度を復元することに成功し、後者はクロスアテンションを介してセマンティック表現とカラークエリの間の相関関係を確立します。
2 つのデコーダーは、マルチスケールの視覚的機能を活用してセマンティックを意識した色の埋め込みを学習するために組み込まれています。
これら 2 つのデコーダーの助けを借りて、私たちの方法は、追加の優先順位なしで、意味的に一貫した視覚的にもっともらしい色付け結果を生成することに成功しました。
さらに、生成された結果の色の豊かさをさらに改善するために、シンプルだが効果的なカラフルネスの損失が導入されています。
私たちの広範な実験は、提案されたDDColorが既存の最先端の作品よりも量的にも質的にも大幅に優れたパフォーマンスを達成することを示しています.
コードは公開されます。
要約(オリジナル)
Automatic image colorization is a particularly challenging problem. Due to the high illness of the problem and multi-modal uncertainty, directly training a deep neural network usually leads to incorrect semantic colors and low color richness. Existing transformer-based methods can deliver better results but highly depend on hand-crafted dataset-level empirical distribution priors. In this work, we propose DDColor, a new end-to-end method with dual decoders, for image colorization. More specifically, we design a multi-scale image decoder and a transformer-based color decoder. The former manages to restore the spatial resolution of the image, while the latter establishes the correlation between semantic representations and color queries via cross-attention. The two decoders incorporate to learn semantic-aware color embedding by leveraging the multi-scale visual features. With the help of these two decoders, our method succeeds in producing semantically consistent and visually plausible colorization results without any additional priors. In addition, a simple but effective colorfulness loss is introduced to further improve the color richness of generated results. Our extensive experiments demonstrate that the proposed DDColor achieves significantly superior performance to existing state-of-the-art works both quantitatively and qualitatively. Codes will be made publicly available.
arxiv情報
著者 | Xiaoyang Kang,Tao Yang,Wenqi Ouyang,Peiran Ren,Lingzhi Li,Xuansong Xie |
発行日 | 2022-12-22 11:17:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google