要約
最近、画像色に深い学習を適用することは、広範囲にわたる注目を集めています。
拡散モデルの成熟により、画像色付けモデルの開発がさらに進歩しました。
ただし、現在の主流の画像色付けモデルは、色の出血や色結合エラーなどの問題に依然として問題に直面しており、インスタンスレベルで画像を色付けすることはできません。
この論文では、使用されたガイダンスを使用して正確なインスタンスを意識した色付けを実現するために、拡散ベースの色彩法mt色を提案します。
色の出血の問題に取り組むために、潜在的な特徴と条件付き灰色の画像の特徴を横断的な出来事で統合するピクセルレベルのマスク注意メカニズムを設計します。
セグメンテーションマスクを使用して横断マスクを構築し、ピクセル情報が異なるインスタンス間で交換するのを防ぎます。
また、各インスタンスのインスタンスマスクとテキスト表現を抽出するインスタンスマスクとテキストガイダンスモジュールを紹介します。これらは、自己触媒を通じて潜在的な特徴と融合し、インスタンスマスクを利用して自己触媒マスクを形成して、インスタンステキストが他の領域の色を導くのを防ぎ、色拘束誤差を軽減します。
さらに、各インスタンス領域を個別にサンプリングしてから結果を融合するマルチインスタンスサンプリング戦略を適用します。
さらに、既存の画像データセットで大きな視覚言語モデルを活用することにより、たとえばレベルの色素化タスクであるGPT-Colorの専門データセットを作成しました。
定性的および定量的実験は、モデルとデータセットが以前の方法とデータセットを上回ることを示しています。
要約(オリジナル)
Recently, the application of deep learning in image colorization has received widespread attention. The maturation of diffusion models has further advanced the development of image colorization models. However, current mainstream image colorization models still face issues such as color bleeding and color binding errors, and cannot colorize images at the instance level. In this paper, we propose a diffusion-based colorization method MT-Color to achieve precise instance-aware colorization with use-provided guidance. To tackle color bleeding issue, we design a pixel-level mask attention mechanism that integrates latent features and conditional gray image features through cross-attention. We use segmentation masks to construct cross-attention masks, preventing pixel information from exchanging between different instances. We also introduce an instance mask and text guidance module that extracts instance masks and text representations of each instance, which are then fused with latent features through self-attention, utilizing instance masks to form self-attention masks to prevent instance texts from guiding the colorization of other areas, thus mitigating color binding errors. Furthermore, we apply a multi-instance sampling strategy, which involves sampling each instance region separately and then fusing the results. Additionally, we have created a specialized dataset for instance-level colorization tasks, GPT-color, by leveraging large visual language models on existing image datasets. Qualitative and quantitative experiments show that our model and dataset outperform previous methods and datasets.
arxiv情報
著者 | Yanru An,Ling Gui,Qiang Hu,Chunlei Cai,Tianxiao Ye,Xiaoyun Zhang,Yanfeng Wang |
発行日 | 2025-05-13 16:13:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google