A Review of Common Online Speaker Diarization Methods

要約

話者ダイアリゼーションは、「誰がいつ話したか?」という質問に対する答えを提供します。
音声ファイルの場合。
この情報を使用して、さらなる処理ステップで音声トランスクリプトを完成させることができます。
ほとんどの話者ダイアライゼーション システムは、オーディオ ファイルが全体として利用可能であることを前提としています。
ただし、オーディオ セグメントの到着直後に話者ラベルが必要になるシナリオもあります。
対応して待ち時間が短い話者ダイアライゼーションは、オンライン話者ダイアライゼーションと呼ばれます。
本稿ではその概要を説明します。
まず、オンライン話者ダイアライゼーションの歴史を簡単に説明します。
次に、トレーニングと評価のための分類とデータセットが与えられます。
以下のセクションでは、オンライン日記の方法とシステムについて詳しく説明します。
この文書は、オンライン話者ダイアライゼーションの分野における将来の研究によってまだ解決される必要がある課題の提示で終わります。

要約(オリジナル)

Speaker diarization provides the answer to the question ‘who spoke when?’ for an audio file. This information can be used to complete audio transcripts for further processing steps. Most speaker diarization systems assume that the audio file is available as a whole. However, there are scenarios in which the speaker labels are needed immediately after the arrival of an audio segment. Speaker diarization with a correspondingly low latency is referred to as online speaker diarization. This paper provides an overview. First the history of online speaker diarization is briefly presented. Next a taxonomy and datasets for training and evaluation are given. In the sections that follow, online diarization methods and systems are discussed in detail. This paper concludes with the presentation of challenges that still need to be solved by future research in the field of online speaker diarization.

arxiv情報

著者 Roman Aperdannier,Sigurd Schacht,Alexander Piazza
発行日 2024-06-20 16:26:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク