Audio-Infused Automatic Image Colorization by Exploiting Audio Scene Semantics

要約

画像の自動カラー化は本質的に不確実性を伴う不適切な問題であり、グレースケール画像の妥当な色を推定するにはシーンを正確に意味的に理解する必要があります。
最近のインタラクションベースの手法は目覚ましいパフォーマンスを達成していますが、自動カラー化のために現実的かつ正確な色を推測することは依然として非常に困難な作業です。
グレースケール シーンの意味的理解の難しさを軽減するために、この論文では、同じシーンに関する追加の意味的情報が当然含まれている、対応する音声の利用を試みます。
具体的には、3 つのステージからなる新しいオーディオ注入自動画像カラー化 (AIAIC) ネットワークが提案されています。
まず、カラー画像セマンティクスをブリッジとして利用し、カラー画像セマンティクスに基づいてカラー化ネットワークを事前トレーニングします。
第 2 に、オーディオとビデオの自然な同時発生を利用して、オーディオ シーンとビジュアル シーンの間の色の意味上の相関関係を学習します。
第三に、暗黙的な音声意味表現が事前トレーニングされたネットワークに供給され、最終的に音声ガイドによる色付けが実現されます。
プロセス全体は、人間による注釈なしで自己監視型の方法でトレーニングされます。
さらに、トレーニングとテスト用に視聴覚カラー化データセットが確立されています。
実験では、特に視覚的なモダリティだけでは理解するのが難しい一部のシーンにおいて、音声ガイダンスが自動カラー化のパフォーマンスを効果的に向上させることができることを示しています。

要約(オリジナル)

Automatic image colorization is inherently an ill-posed problem with uncertainty, which requires an accurate semantic understanding of scenes to estimate reasonable colors for grayscale images. Although recent interaction-based methods have achieved impressive performance, it is still a very difficult task to infer realistic and accurate colors for automatic colorization. To reduce the difficulty of semantic understanding of grayscale scenes, this paper tries to utilize corresponding audio, which naturally contains extra semantic information about the same scene. Specifically, a novel audio-infused automatic image colorization (AIAIC) network is proposed, which consists of three stages. First, we take color image semantics as a bridge and pretrain a colorization network guided by color image semantics. Second, the natural co-occurrence of audio and video is utilized to learn the color semantic correlations between audio and visual scenes. Third, the implicit audio semantic representation is fed into the pretrained network to finally realize the audio-guided colorization. The whole process is trained in a self-supervised manner without human annotation. In addition, an audiovisual colorization dataset is established for training and testing. Experiments demonstrate that audio guidance can effectively improve the performance of automatic colorization, especially for some scenes that are difficult to understand only from visual modality.

arxiv情報

著者 Pengcheng Zhao,Yanxiang Chen,Yang Zhao,Wei Jia,Zhao Zhang,Ronggang Wang,Richang Hong
発行日 2024-01-24 07:22:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク