Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors

要約

Vibravox は、一般データ保護規則 (GDPR) に準拠したデータセットで、5 つの異なる体伝導オーディオ センサー (2 つのインイヤー マイク、2 つの骨伝導振動ピックアップ、および喉頭フォン) を使用した音声録音が含​​まれています。
データセットには、基準として使用される空中マイクからの音声データも含まれています。
Vibravox コーパスには、高次アンビソニックス 3D スペイシャライザーによって課されたさまざまな音響条件下で 188 人の参加者によって録音された 38 時間の音声サンプルと生理学的音が含まれています。
コーパスには、録音状況や言語転写に関する注釈も含まれています。
私たちは、音声認識、音声強調、話者検証など、さまざまな音声関連タスクに関する一連の実験を実施しました。
これらの実験は、個々の特性をよりよく把握することを目的として、Vibravox データセットが提供するさまざまなオーディオ センサーによってキャプチャされた信号のパフォーマンスを評価および比較するために、最先端のモデルを使用して実行されました。

要約(オリジナル)

Vibravox is a dataset compliant with the General Data Protection Regulation (GDPR) containing audio recordings using five different body-conduction audio sensors : two in-ear microphones, two bone conduction vibration pickups and a laryngophone. The data set also includes audio data from an airborne microphone used as a reference. The Vibravox corpus contains 38 hours of speech samples and physiological sounds recorded by 188 participants under different acoustic conditions imposed by an high order ambisonics 3D spatializer. Annotations about the recording conditions and linguistic transcriptions are also included in the corpus. We conducted a series of experiments on various speech-related tasks, including speech recognition, speech enhancement and speaker verification. These experiments were carried out using state-of-the-art models to evaluate and compare their performances on signals captured by the different audio sensors offered by the Vibravox dataset, with the aim of gaining a better grasp of their individual characteristics.

arxiv情報

著者 Julien Hauret,Malo Olivier,Thomas Joubaud,Christophe Langrenne,Sarah Poirée,Véronique Zimpfer,Éric Bavu
発行日 2024-07-17 08:09:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.AS パーマリンク