A Semi-Automatic Approach to Create Large Gender- and Age-Balanced Speaker Corpora: Usefulness of Speaker Diarization & Identification

要約

この論文では、32 のカテゴリ (2 つの性別、4 つの年齢層、4 つの録音期間) に従って、話者の年齢、性別、録音期間のバランスがとれた音声の通時コーパスを作成する半自動アプローチを紹介します。
Corpora は、フランス国立視聴覚研究所 (INA) でカテゴリごとに少なくとも 30 人の講演者を獲得するために選ばれました (合計 960 人の講演者。まだ 874 人だけが見つかっています)。
話者ごとに、音声検出、バックグラウンドミュージック、重複した音声の除去、話者ダイアライゼーションで構成される自動パイプラインを使用して視聴覚文書から音声の抜粋が抽出され、ターゲット話者を識別するヒューマンアノテーターにきれいな話者のセグメントを提示するために使用されました。
このパイプラインは非常に効果的であることが証明され、手動処理が 10 分の 1 に削減されました。
自動処理と最終出力の品質の評価が提供されます。
これは、自動処理が最新のプロセスと比較して、選択された抜粋のほとんどについて高品質の音声が出力されることを示しています。
この方法は、既知の対象話者の大規模なコーパスを作成できる可能性を示しています。

要約(オリジナル)

This paper presents a semi-automatic approach to create a diachronic corpus of voices balanced for speaker’s age, gender, and recording period, according to 32 categories (2 genders, 4 age ranges and 4 recording periods). Corpora were selected at French National Institute of Audiovisual (INA) to obtain at least 30 speakers per category (a total of 960 speakers; only 874 have be found yet). For each speaker, speech excerpts were extracted from audiovisual documents using an automatic pipeline consisting of speech detection, background music and overlapped speech removal and speaker diarization, used to present clean speaker segments to human annotators identifying target speakers. This pipeline proved highly effective, cutting down manual processing by a factor of ten. Evaluation of the quality of the automatic processing and of the final output is provided. It shows the automatic processing compare to up-to-date process, and that the output provides high quality speech for most of the selected excerpts. This method shows promise for creating large corpora of known target speakers.

arxiv情報

著者 Rémi Uro,David Doukhan,Albert Rilliard,Laëtitia Larcher,Anissa-Claire Adgharouamane,Marie Tahon,Antoine Laurent
発行日 2024-04-26 17:30:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DL, cs.LG, cs.SD, eess.AS パーマリンク