要約
読唇術は、唇の動きを分析することで話し言葉を予測することを目的としています。
読唇技術の進歩にも関わらず、目に見えない話者にモデルを適用すると、唇の外観などの視覚情報の変化に敏感になるため、パフォーマンスが低下します。
この課題に対処するために、話者適応読唇技術は、視覚モダリティのターゲット話者に読唇モデルを効果的に適応させることに焦点を当てて進歩してきました。
しかし、ターゲット話者の語彙選択などの言語情報を適応させることの有効性は、これまでの研究では検討されていませんでした。
さらに、話者適応のための既存のデータセットには語彙サイズとポーズのバリエーションが限られているため、現実世界のシナリオにおける以前の話者適応手法の検証が制限されます。
これらの問題に対処するために、我々は、視覚レベルと言語レベルの両方で話者を対象とするように事前訓練されたモデルを適応させる、新しい話者適応型読唇法を提案します。
具体的には、プロンプトチューニングと LoRA アプローチを統合し、それらを事前トレーニングされた読唇モデルに適用して、対象話者にモデルを効果的に適応させます。
さらに、現実世界のシナリオでの有効性を検証するために、VoxCeleb2 と LRS3 から派生した新しいデータセット VoxLRS-SA を導入します。
約 100,000 語の語彙が含まれ、多様なポーズのバリエーションが提供され、英語で初めて文レベルの読唇術での適応方法の検証が可能になります。
さまざまな実験を通じて、既存の話者適応手法が文レベルでの実際のパフォーマンスも向上することを実証します。
さらに、提案手法が以前の研究と比較して大きな改善を達成することを示します。
要約(オリジナル)
Lip reading aims to predict spoken language by analyzing lip movements. Despite advancements in lip reading technologies, performance degrades when models are applied to unseen speakers due to their sensitivity to variations in visual information such as lip appearances. To address this challenge, speaker adaptive lip reading technologies have advanced by focusing on effectively adapting a lip reading model to target speakers in the visual modality. However, the effectiveness of adapting language information, such as vocabulary choice, of the target speaker has not been explored in previous works. Additionally, existing datasets for speaker adaptation have limited vocabulary sizes and pose variations, which restrict the validation of previous speaker-adaptive methods in real-world scenarios. To address these issues, we propose a novel speaker-adaptive lip reading method that adapts a pre-trained model to target speakers at both vision and language levels. Specifically, we integrate prompt tuning and the LoRA approach, applying them to a pre-trained lip reading model to effectively adapt the model to target speakers. Furthermore, to validate its effectiveness in real-world scenarios, we introduce a new dataset, VoxLRS-SA, derived from VoxCeleb2 and LRS3. It contains a vocabulary of approximately 100K words, offers diverse pose variations, and enables the validation of adaptation methods in the wild, sentence-level lip reading for the first time in English. Through various experiments, we demonstrate that the existing speaker-adaptive method also improves performance in the wild at the sentence level. Moreover, we show that the proposed method achieves larger improvements compared to the previous works.
arxiv情報
著者 | Jeong Hun Yeo,Chae Won Kim,Hyunjun Kim,Hyeongseop Rha,Seunghee Han,Wen-Huang Cheng,Yong Man Ro |
発行日 | 2025-01-01 06:10:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google