NOTSOFAR-1 Challenge: New Datasets, Baseline, and Tasks for Distant Meeting Transcription

要約

データセットとベースライン システムとともに、遠距離音声録音 (「NOTSOFAR-1」) チャレンジの設定における最初の Natural Office Talkers を紹介します。
この課題は、シングル チャネルおよび既知のジオメトリのマルチ チャネル トラックを使用した遠方会議シナリオにおける遠隔話者ダイアリゼーションと自動音声認識 (DASR) に焦点を当てており、2 つの新しいデータセットの起動プラットフォームとして機能します。
315 件の会議があり、それぞれ平均 6 分で、現実世界の音響条件と会話のダイナミクスを広範囲にキャプチャします。
30 の会議室で録画されており、参加者 4 ~ 8 名と合計 35 名のユニークな講演者が参加します。
2 つ目は、15,000 の実際の音響伝達関数を組み込んだ、現実世界の一般化のために信頼性を高めて合成された 1,000 時間のシミュレーション トレーニング データセットです。
このタスクは、マルチチャネル デバイスが常に同じ既知のジオメトリを共有する単一デバイスの DASR に焦点を当てています。
これは、実際の会議室の一般的なセットアップと一致しており、マルチデバイス タスクに関連する技術的な複雑さを回避します。
また、ジオメトリ固有のソリューションの開発も可能になります。
NOTSOFAR-1 チャレンジは、遠隔会話音声認識の分野における研究を推進し、データ駆動型手法の可能性を解き放つための重要なリソースを提供することを目的としていますが、現在、包括的な高品質のトレーニングとベンチマーク データセットの欠如により制約されていると考えられます。

要約(オリジナル)

We introduce the first Natural Office Talkers in Settings of Far-field Audio Recordings (“NOTSOFAR-1”) Challenge alongside datasets and baseline system. The challenge focuses on distant speaker diarization and automatic speech recognition (DASR) in far-field meeting scenarios, with single-channel and known-geometry multi-channel tracks, and serves as a launch platform for two new datasets: First, a benchmarking dataset of 315 meetings, averaging 6 minutes each, capturing a broad spectrum of real-world acoustic conditions and conversational dynamics. It is recorded across 30 conference rooms, featuring 4-8 attendees and a total of 35 unique speakers. Second, a 1000-hour simulated training dataset, synthesized with enhanced authenticity for real-world generalization, incorporating 15,000 real acoustic transfer functions. The tasks focus on single-device DASR, where multi-channel devices always share the same known geometry. This is aligned with common setups in actual conference rooms, and avoids technical complexities associated with multi-device tasks. It also allows for the development of geometry-specific solutions. The NOTSOFAR-1 Challenge aims to advance research in the field of distant conversational speech recognition, providing key resources to unlock the potential of data-driven methods, which we believe are currently constrained by the absence of comprehensive high-quality training and benchmarking datasets.

arxiv情報

著者 Alon Vinnikov,Amir Ivry,Aviv Hurvitz,Igor Abramovski,Sharon Koubi,Ilya Gurvich,Shai Pe`er,Xiong Xiao,Benjamin Martinez Elizalde,Naoyuki Kanda,Xiaofei Wang,Shalev Shaer,Stav Yagev,Yossi Asher,Sunit Sivasankaran,Yifan Gong,Min Tang,Huaming Wang,Eyal Krupka
発行日 2024-01-16 23:50:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク