要約
この論文では、視覚音声認識 (VSR) における通常の音声と無音音声の間のパフォーマンスのギャップに対処するための新しい計量学習アプローチを紹介します。
この 2 つの唇の動きの違いは、既存の VSR モデルにとって課題となっており、無言の音声に適用すると精度が低下します。
この問題を解決し、無言音声のトレーニング データの不足に取り組むために、通常の音声と無言音声の間で共有されるリテラル コンテンツを活用し、口形素に基づいた計量学習アプローチを提示することを提案します。
具体的には、類似の口形素表現を持つ場合、潜在空間内で互いに近い 2 つの音声タイプの入力をマッピングすることを目的としています。
2 つの音声タイプ間および 2 つの音声タイプ内で予測される口形素確率分布のカルバック-ライブラー発散を最小限に抑えることにより、モデルは口形素のアイデンティティを効果的に学習して予測します。
私たちの評価は、利用可能なトレーニング データが限られている場合でも、私たちの方法がサイレント VSR の精度を向上させることを示しています。
要約(オリジナル)
This paper presents a novel metric learning approach to address the performance gap between normal and silent speech in visual speech recognition (VSR). The difference in lip movements between the two poses a challenge for existing VSR models, which exhibit degraded accuracy when applied to silent speech. To solve this issue and tackle the scarcity of training data for silent speech, we propose to leverage the shared literal content between normal and silent speech and present a metric learning approach based on visemes. Specifically, we aim to map the input of two speech types close to each other in a latent space if they have similar viseme representations. By minimizing the Kullback-Leibler divergence of the predicted viseme probability distributions between and within the two speech types, our model effectively learns and predicts viseme identities. Our evaluation demonstrates that our method improves the accuracy of silent VSR, even when limited training data is available.
arxiv情報
著者 | Sara Kashiwagi,Keitaro Tanaka,Qi Feng,Shigeo Morishima |
発行日 | 2023-05-23 16:20:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google