LIP-RTVE: An Audiovisual Database for Continuous Spanish in the Wild

要約

音声は、聴覚と視覚が 2 つの基本的な柱であるマルチモーダルなプロセスであると考えられています。
実際、音声と視覚の合図を組み合わせて音声の性質を表現すると、自動音声認識システムの堅牢性が向上することが、いくつかの研究で実証されています。
さらに、話者の唇を読んで音声を解釈することを目的とした未解決の研究課題である視覚音声認識は、ここ数十年で注目を集めてきました。
しかし、現在のディープラーニング時代においてこれらのシステムを推定するには、大規模なデータベースが必要です。
一方、これらのデータベースのほとんどは英語専用ですが、他の言語には十分なリソースがありません。
したがって、この論文では、スペインのテレビから抽出された 13 時間のデータを提供する、制約のない自然なスペイン語を扱うための、半自動的に注釈が付けられた視聴覚データベースを紹介します。
さらに、話者依存シナリオと話者非依存シナリオのベースライン結果は、音声技術の分野で広く使用されている従来のパラダイムである隠れマルコフ モデルを使用して報告されます。

要約(オリジナル)

Speech is considered as a multi-modal process where hearing and vision are two fundamentals pillars. In fact, several studies have demonstrated that the robustness of Automatic Speech Recognition systems can be improved when audio and visual cues are combined to represent the nature of speech. In addition, Visual Speech Recognition, an open research problem whose purpose is to interpret speech by reading the lips of the speaker, has been a focus of interest in the last decades. Nevertheless, in order to estimate these systems in the currently Deep Learning era, large-scale databases are required. On the other hand, while most of these databases are dedicated to English, other languages lack sufficient resources. Thus, this paper presents a semi-automatically annotated audiovisual database to deal with unconstrained natural Spanish, providing 13 hours of data extracted from Spanish television. Furthermore, baseline results for both speaker-dependent and speaker-independent scenarios are reported using Hidden Markov Models, a traditional paradigm that has been widely used in the field of Speech Technologies.

arxiv情報

著者 David Gimeno-Gómez,Carlos-D. Martínez-Hinarejos
発行日 2023-11-21 09:12:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク