AnnoTheia: A Semi-Automatic Annotation Toolkit for Audio-Visual Speech Technologies

要約

世界中で 7,000 以上の既知の言語が話されています。
ただし、注釈付きのリソースが不足しているため、現在音声テクノロジーでカバーされているのはそのほんの一部だけです。
自己教師による音声表現、最近の大規模な音声コーパスのコレクション、および課題の整理によってこの不平等は緩和されてきましたが、ほとんどの研究は主に英語をベンチマークとしています。
この状況は、音響音声モダリティと視覚音声音声モダリティの両方を含むタスクに対処する場合にさらに悪化します。
視聴覚音声技術のための低リソース言語の研究を促進するために、人が現場で話すときとそれに対応する文字起こしを検出する半自動注釈ツールキットである AnnoTheia を紹介します。
さらに、対象の言語に合わせて AnnoTheia を準備する完全なプロセスを示すために、当初この種のタスク用に考えられていなかったデータベースを使用して、アクティブ話者検出用の事前トレーニング済みモデルをスペイン語に適応させる方法についても説明します。
AnnoTheia ツールキット、チュートリアル、事前トレーニングされたモデルは GitHub で入手できます。

要約(オリジナル)

More than 7,000 known languages are spoken around the world. However, due to the lack of annotated resources, only a small fraction of them are currently covered by speech technologies. Albeit self-supervised speech representations, recent massive speech corpora collections, as well as the organization of challenges, have alleviated this inequality, most studies are mainly benchmarked on English. This situation is aggravated when tasks involving both acoustic and visual speech modalities are addressed. In order to promote research on low-resource languages for audio-visual speech technologies, we present AnnoTheia, a semi-automatic annotation toolkit that detects when a person speaks on the scene and the corresponding transcription. In addition, to show the complete process of preparing AnnoTheia for a language of interest, we also describe the adaptation of a pre-trained model for active speaker detection to Spanish, using a database not initially conceived for this type of task. The AnnoTheia toolkit, tutorials, and pre-trained models are available on GitHub.

arxiv情報

著者 José-M. Acosta-Triana,David Gimeno-Gómez,Carlos-D. Martínez-Hinarejos
発行日 2024-02-20 17:07:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク