要約
人間は、視聴覚事象についての事前知識に基づいて、聴覚情報から容易に情景を想像することができます。
このペーパーでは、この人間の生来の能力を深層学習モデルで模倣し、ビデオ修復の品質を向上させます。
事前知識を実装するには、まず、聴覚情報と視覚情報の対応関係を学習する視聴覚ネットワークをトレーニングします。
次に、オーディオビジュアル ネットワークは、オーディオビジュアル対応に関する事前知識をビデオ修復ネットワークに伝えるガイドとして使用されます。
この事前知識は、私たちが提案する 2 つの新しい損失、つまり視聴覚注意力喪失と視聴覚疑似クラス一貫性喪失を通じて転送されます。
これら 2 つの損失により、修復結果が同期されたオーディオと高度に一致するようになるため、ビデオ修復のパフォーマンスがさらに向上します。
実験結果は、私たちが提案した方法がビデオシーンのより広い領域を復元でき、シーン内の音声オブジェクトが部分的に見えなくなっている場合に特に効果的であることを示しています。
要約(オリジナル)
Humans can easily imagine a scene from auditory information based on their prior knowledge of audio-visual events. In this paper, we mimic this innate human ability in deep learning models to improve the quality of video inpainting. To implement the prior knowledge, we first train the audio-visual network, which learns the correspondence between auditory and visual information. Then, the audio-visual network is employed as a guider that conveys the prior knowledge of audio-visual correspondence to the video inpainting network. This prior knowledge is transferred through our proposed two novel losses: audio-visual attention loss and audio-visual pseudo-class consistency loss. These two losses further improve the performance of the video inpainting by encouraging the inpainting result to have a high correspondence to its synchronized audio. Experimental results demonstrate that our proposed method can restore a wider domain of video scenes and is particularly effective when the sounding object in the scene is partially blinded.
arxiv情報
著者 | Kyuyeon Kim,Junsik Jung,Woo Jae Kim,Sung-Eui Yoon |
発行日 | 2023-10-11 17:03:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google