L-CAD: Language-based Colorization with Any-level Descriptions

要約

言語ベースの色付けは、ユーザーフレンドリーな自然言語の説明に基づいて、もっともらしく視覚的に心地よい色を生成します。
これまでの方法では、ユーザーが画像内のほとんどのオブジェクトに対して包括的な色の説明を提供することを暗黙的に前提としており、最適なパフォーマンスが得られませんでした。
この論文では、任意のレベルの記述を使用して言語ベースの色付けを実行するための統一モデルを提案します。
私たちは、堅牢な言語理解と豊かな色の事前学習のために事前トレーニングされたクロスモダリティ生成モデルを活用し、あらゆるレベルの記述に固有のあいまいさを処理します。
さらに、入力条件に合わせてモジュールを設計し、局所的な空間構造を維持し、ゴースト効果を防ぎます。
提案された新しいサンプリング戦略により、私たちのモデルは多様で複雑なシナリオでインスタンスを認識した色付けを実現します。
広範な実験結果は、あらゆるレベルの記述を効果的に処理し、言語ベースおよび自動カラー化方法の両方を上回るパフォーマンスを発揮するという当社の利点を実証しています。
コードと事前トレーニングされたモデルは、https://github.com/changzheng123/L-CAD から入手できます。

要約(オリジナル)

Language-based colorization produces plausible and visually pleasing colors under the guidance of user-friendly natural language descriptions. Previous methods implicitly assume that users provide comprehensive color descriptions for most of the objects in the image, which leads to suboptimal performance. In this paper, we propose a unified model to perform language-based colorization with any-level descriptions. We leverage the pretrained cross-modality generative model for its robust language understanding and rich color priors to handle the inherent ambiguity of any-level descriptions. We further design modules to align with input conditions to preserve local spatial structures and prevent the ghosting effect. With the proposed novel sampling strategy, our model achieves instance-aware colorization in diverse and complex scenarios. Extensive experimental results demonstrate our advantages of effectively handling any-level descriptions and outperforming both language-based and automatic colorization methods. The code and pretrained models are available at: https://github.com/changzheng123/L-CAD.

arxiv情報

著者 Zheng Chang,Shuchen Weng,Peixuan Zhang,Yu Li,Si Li,Boxin Shi
発行日 2023-05-24 14:57:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク