要約
この研究では、シンプルかつ効果的な方法でダイアライゼーション システムの出力を改良する、DiaCorrect という名前のエラー修正フレームワークを提案します。
この方法は、自動音声認識におけるエラー修正技術からインスピレーションを得ています。
私たちのモデルは、2 つの並列畳み込みエンコーダーと 1 つの変換ベースのデコーダーで構成されています。
DiaCorrect は、入力録音と最初のシステムの出力の間の相互作用を利用することで、最初の話者のアクティビティを自動的に修正し、ダイアライゼーション エラーを最小限に抑えることができます。
2 話者の電話データに関する実験では、提案された DiaCorrect が初期モデルの結果を効果的に改善できることが示されています。
私たちのソースコードは https://github.com/BUTSpeechFIT/diacorrect で公開されています。
要約(オリジナル)
In this work, we propose an error correction framework, named DiaCorrect, to refine the output of a diarization system in a simple yet effective way. This method is inspired by error correction techniques in automatic speech recognition. Our model consists of two parallel convolutional encoders and a transform-based decoder. By exploiting the interactions between the input recording and the initial system’s outputs, DiaCorrect can automatically correct the initial speaker activities to minimize the diarization errors. Experiments on 2-speaker telephony data show that the proposed DiaCorrect can effectively improve the initial model’s results. Our source code is publicly available at https://github.com/BUTSpeechFIT/diacorrect.
arxiv情報
著者 | Jiangyu Han,Federico Landini,Johan Rohdin,Mireia Diez,Lukas Burget,Yuhang Cao,Heng Lu,Jan Cernocky |
発行日 | 2023-09-15 13:08:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google