Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading

要約

この論文では、2 つの観察に基づいて、読唇術における話者適応のための新しい方法を提案します。
第一に、話者自身の特徴は、浅いネットワークを備えた少数の顔画像や単一の画像によって常に適切に描写できますが、話している顔によって表現される音声内容に関連付けられたきめの細かい動的特徴を表現するには常に深い連続ネットワークが必要です。
正確に。
したがって、話者適応読唇術では、浅い層と深い層を異なる方法で扱います。
第二に、話者の固有の特徴(例えば、突出した口腔や下顎骨)が、さまざまな単語や発音の読唇能力にさまざまな影響を及ぼし、堅牢な読唇のためには特徴を適応的に強化または抑制する必要があることが観察されています。
これら 2 つの観察に基づいて、話者自身の特性を利用して、浅い層と深い層のそれぞれで異なるターゲットを持つ分離可能な隠れユニットの寄与を自動的に学習することを提案します。
発話内容に関連する特徴よりも話者の特徴​​に関連する特徴が強い浅い層に対して、発話内容の特徴を強化するために学習する話者適応特徴を導入します。
話者の特徴​​と音声内容の特徴の両方がすべてよく表現されている深層については、堅牢な読唇のために音声内容に無関係なノイズを抑制するために学習する話者適応特徴を導入します。
包括的な分析とさまざまな設定間の比較によって確認されているように、当社のアプローチは常に既存の手法を上回っています。
人気の LRW-ID および GRID データセットでの評価に加えて、評価用の新しいデータセット CAS-VSR-S68h もリリースしています。これは、利用可能な講演者が数人しかいないものの、スピーチの内容が広範囲にわたる極端な設定でのパフォーマンスをさらに評価するためです。
広くて多様な範囲。

要約(オリジナル)

In this paper, we propose a novel method for speaker adaptation in lip reading, motivated by two observations. Firstly, a speaker’s own characteristics can always be portrayed well by his/her few facial images or even a single image with shallow networks, while the fine-grained dynamic features associated with speech content expressed by the talking face always need deep sequential networks to represent accurately. Therefore, we treat the shallow and deep layers differently for speaker adaptive lip reading. Secondly, we observe that a speaker’s unique characteristics ( e.g. prominent oral cavity and mandible) have varied effects on lip reading performance for different words and pronunciations, necessitating adaptive enhancement or suppression of the features for robust lip reading. Based on these two observations, we propose to take advantage of the speaker’s own characteristics to automatically learn separable hidden unit contributions with different targets for shallow layers and deep layers respectively. For shallow layers where features related to the speaker’s characteristics are stronger than the speech content related features, we introduce speaker-adaptive features to learn for enhancing the speech content features. For deep layers where both the speaker’s features and the speech content features are all expressed well, we introduce the speaker-adaptive features to learn for suppressing the speech content irrelevant noise for robust lip reading. Our approach consistently outperforms existing methods, as confirmed by comprehensive analysis and comparison across different settings. Besides the evaluation on the popular LRW-ID and GRID datasets, we also release a new dataset for evaluation, CAS-VSR-S68h, to further assess the performance in an extreme setting where just a few speakers are available but the speech content covers a large and diversified range.

arxiv情報

著者 Songtao Luo,Shuang Yang,Shiguang Shan,Xilin Chen
発行日 2024-04-30 11:20:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS パーマリンク