要約
タイトル:テキスト記述を用いたマルチモーダル画像着色(MMC: Multi-Modal Colorization of Images using Textual Descriptions)
要約:
– 異なる色の物体を処理することは、画像着色技術において重大な課題である。
– これまでの画像着色アルゴリズムは、複雑な現実世界のシーンに対しては、しばしば色の一貫性を維持できずに失敗する。
– 本研究では、着色するグレースケール画像に加えて補助的な条件として、テキスト記述を統合することで、着色プロセスの忠実度を向上させる試みを行っている。
– そのために、グレースケール画像と対応するエンコードされたテキスト記述の2つの入力を取り、関連する色成分を予測する深層ネットワークを提案している。
– また、画像内の各オブジェクトを予測し、それぞれの説明に従ってオブジェクトを着色することで、色付けプロセスにそれらの特定の属性を取り込んでいる。
– その後、ファージョンモデルはすべての画像オブジェクト(セグメント)を融合し、最終的な着色された画像を生成する。
– 対応するテキスト記述は、画像内のオブジェクトの色情報を含んでいるため、テキストのエンコードが予測された色の全体的な品質の向上に役立つ。
– 性能面では、提案手法はLPIPS、PSNR、SSIMのメトリックにおいて、従来の着色技術を上回っている。
要約(オリジナル)
Handling various objects with different colors is a significant challenge for image colorization techniques. Thus, for complex real-world scenes, the existing image colorization algorithms often fail to maintain color consistency. In this work, we attempt to integrate textual descriptions as an auxiliary condition, along with the grayscale image that is to be colorized, to improve the fidelity of the colorization process. To do so, we have proposed a deep network that takes two inputs (grayscale image and the respective encoded text description) and tries to predict the relevant color components. Also, we have predicted each object in the image and have colorized them with their individual description to incorporate their specific attributes in the colorization process. After that, a fusion model fuses all the image objects (segments) to generate the final colorized image. As the respective textual descriptions contain color information of the objects present in the image, text encoding helps to improve the overall quality of predicted colors. In terms of performance, the proposed method outperforms existing colorization techniques in terms of LPIPS, PSNR and SSIM metrics.
arxiv情報
著者 | Subhankar Ghosh,Prasun Roy,Saumik Bhattacharya,Umapada Pal,Michael Blumenstein |
発行日 | 2023-04-24 10:53:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI