要約
視覚的な音声認識は、視覚的なあいまいさ、スピーカー間の人間間変動、沈黙の複雑なモデリングなど、聴覚的な意味を分配することによって、さまざまな課題を考慮する必要があるオープンな研究問題のままです。
それにもかかわらず、大規模なデータベースの利用可能性と強力な注意メカニズムの使用により、最近の顕著な結果がこの分野で達成されています。
その上、英語を除いて複数の言語は最近では興味深いものです。
このペーパーでは、スペイン語の自動連続リップリーディングの顕著な進歩を示しています。
まず、ハイブリッドCTC/注意アーキテクチャに基づくエンドツーエンドシステムが提示されます。
実験は、異なる性質の2つのコーパスで行われ、両方のデータベースでこれまでに得られた最高のパフォーマンスを大幅に改善する最先端の結果に達します。
さらに、徹底的なアブレーション研究が実施され、アーキテクチャを形成するさまざまなコンポーネントが音声認識の質にどのように影響するかを研究されています。
次に、自動システムの学習に影響を与える可能性のあるさまざまな要因を調査するために、厳密なエラー分析が実行されます。
最後に、新しいスペインのリップリーディングベンチマークが統合されます。
コードモデルと訓練されたモデルは、https://github.com/david-gimeno/evaluating-end2end-spanish-lipreadingで入手できます。
要約(オリジナル)
Visual speech recognition remains an open research problem where different challenges must be considered by dispensing with the auditory sense, such as visual ambiguities, the inter-personal variability among speakers, and the complex modeling of silence. Nonetheless, recent remarkable results have been achieved in the field thanks to the availability of large-scale databases and the use of powerful attention mechanisms. Besides, multiple languages apart from English are nowadays a focus of interest. This paper presents noticeable advances in automatic continuous lipreading for Spanish. First, an end-to-end system based on the hybrid CTC/Attention architecture is presented. Experiments are conducted on two corpora of disparate nature, reaching state-of-the-art results that significantly improve the best performance obtained to date for both databases. In addition, a thorough ablation study is carried out, where it is studied how the different components that form the architecture influence the quality of speech recognition. Then, a rigorous error analysis is carried out to investigate the different factors that could affect the learning of the automatic system. Finally, a new Spanish lipreading benchmark is consolidated. Code and trained models are available at https://github.com/david-gimeno/evaluating-end2end-spanish-lipreading.
arxiv情報
著者 | David Gimeno-Gómez,Carlos-D. Martínez-Hinarejos |
発行日 | 2025-02-17 14:44:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google