SpokesBiz — an Open Corpus of Conversational Polish

要約

この文書は、CLARIN-BIZ プロジェクト内で開発され、650 時間以上の録音で構成される無料で利用できる会話ポーランド語コーパスである SpokesBiz の早期リリースを発表します。
転写された録音は日記化され、句読点や大文字小文字について手動で注釈が付けられています。
コーパスの一般的な構造と内容を概説し、言語研究、自動音声認識 (ASR) システムの評価および改善における選択されたアプリケーションを紹介します。

要約(オリジナル)

This paper announces the early release of SpokesBiz, a freely available corpus of conversational Polish developed within the CLARIN-BIZ project and comprising over 650 hours of recordings. The transcribed recordings have been diarized and manually annotated for punctuation and casing. We outline the general structure and content of the corpus, showcasing selected applications in linguistic research, evaluation and improvement of automatic speech recognition (ASR) systems

arxiv情報

著者 Piotr Pęzik,Sylwia Karasińska,Anna Cichosz,Łukasz Jałowiecki,Konrad Kaczyński,Małgorzata Krawentek,Karolina Walkusz,Paweł Wilk,Mariusz Kleć,Krzysztof Szklanny,Szymon Marszałkowski
発行日 2023-12-19 17:48:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク