要約
この研究の目標は、一連のビデオ フレーム内で人が話しているかどうかを判断するタスクであるアクティブ スピーカー検出 (ASD) です。
これまでの研究では、ネットワーク アーキテクチャを検討することでこのタスクに対処していましたが、効果的な表現の学習についてはあまり検討されていませんでした。
この研究では、新しいトークを意識したコントラスト損失である TalkNCE を提案します。
損失は、画面上の人物が実際に話しているセグメント全体の一部にのみ適用されます。
これにより、モデルは音声と顔の動きの自然な対応を通じて効果的な表現を学習することができます。
私たちの損失は、追加の監視やトレーニング データを必要とせずに、ASD モデルをトレーニングするための既存の目標と合わせて最適化できます。
実験は、私たちの損失を既存の ASD フレームワークに簡単に統合でき、パフォーマンスを向上できることを示しています。
私たちの手法は、AVA-ActiveSpeaker および ASW データセットで最先端のパフォーマンスを実現します。
要約(オリジナル)
The goal of this work is Active Speaker Detection (ASD), a task to determine whether a person is speaking or not in a series of video frames. Previous works have dealt with the task by exploring network architectures while learning effective representations has been less explored. In this work, we propose TalkNCE, a novel talk-aware contrastive loss. The loss is only applied to part of the full segments where a person on the screen is actually speaking. This encourages the model to learn effective representations through the natural correspondence of speech and facial movements. Our loss can be jointly optimized with the existing objectives for training ASD models without the need for additional supervision or training data. The experiments demonstrate that our loss can be easily integrated into the existing ASD frameworks, improving their performance. Our method achieves state-of-the-art performances on AVA-ActiveSpeaker and ASW datasets.
arxiv情報
著者 | Chaeyoung Jung,Suyeon Lee,Kihyun Nam,Kyeongha Rho,You Jin Kim,Youngjoon Jang,Joon Son Chung |
発行日 | 2023-09-21 17:59:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google