Implicit spoken language diarization

要約

音声日記化 (LD) とそれに関連するタスクは、主に音韻アプローチを使用して検討されます。
音韻論的アプローチは主に言語モデリングの明示的な方法を使用するため、中間の音素モデリングと転写データが必要です。
あるいは、時間的ダイナミクスをモデル化する深層学習アプローチの機能は、深層埋め込みベクトルを介した言語情報の暗黙的なモデリングに役立つ可能性があります。
したがって、この研究では、最初に、LD タスクを実行するために話者情報を暗黙的に取得する、利用可能な話者ダイアライゼーション フレームワークを調査します。
エンドツーエンドの X ベクトル手法を使用した合成コードスイッチ データに対する LD システムのパフォーマンスは、ダイアライゼーション エラー率と Jaccard エラーの観点から、6.78% と 7.06%、実際のデータでは 22.50% と 60.38% です。
レート(JER)、それぞれ。
パフォーマンスの低下はデータの不均衡が原因であり、事前トレーニング済みの wave2vec 埋め込みを使用することである程度解決され、JER に関して 30.74% の相対的な改善が得られます。

要約(オリジナル)

Spoken language diarization (LD) and related tasks are mostly explored using the phonotactic approach. Phonotactic approaches mostly use explicit way of language modeling, hence requiring intermediate phoneme modeling and transcribed data. Alternatively, the ability of deep learning approaches to model temporal dynamics may help for the implicit modeling of language information through deep embedding vectors. Hence this work initially explores the available speaker diarization frameworks that capture speaker information implicitly to perform LD tasks. The performance of the LD system on synthetic code-switch data using the end-to-end x-vector approach is 6.78% and 7.06%, and for practical data is 22.50% and 60.38%, in terms of diarization error rate and Jaccard error rate (JER), respectively. The performance degradation is due to the data imbalance and resolved to some extent by using pre-trained wave2vec embeddings that provide a relative improvement of 30.74% in terms of JER.

arxiv情報

著者 Jagabandhu Mishra,Amartya Chowdhury,S. R. Mahadeva Prasanna
発行日 2023-06-22 14:29:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク