Cem Mil Podcasts: A Spoken Portuguese Document Corpus For Multi-modal, Multi-lingual and Multi-Dialect Information Access Research

要約

このペーパーでは、学術研究目的でリリースしたポルトガル語のポッドキャスト データセットについて説明します。
データのサンプリング方法、コレクション全体の記述統計、ブラジルとポルトガルの方言の分布に関する情報の概要を示します。
多言語要約に関する実験結果を示し、英語とポルトガル語の両方をサポートするシステムによってポッドキャストのトランスクリプトの要約が適切に実行できることを示しています。
また、テキスト メタデータを使用したポルトガル語のポッドキャストのジャンル分類の実験も示します。
このコレクションを以前にリリースされた英語コレクションと組み合わせることで、マルチモーダル、多言語、および多方言のポッドキャスト情報アクセス調査の可能性が広がります。

要約(オリジナル)

In this paper we describe the Portuguese-language podcast dataset we have released for academic research purposes. We give an overview of how the data was sampled, descriptive statistics over the collection, as well as information about the distribution over Brazilian and Portuguese dialects. We give results from experiments on multi-lingual summarization, showing that summarizing podcast transcripts can be performed well by a system supporting both English and Portuguese. We also show experiments on Portuguese podcast genre classification using text metadata. Combining this collection with previously released English-language collection opens up the potential for multi-modal, multi-lingual and multi-dialect podcast information access research.

arxiv情報

著者 Ekaterina Garmash,Edgar Tanaka,Ann Clifton,Joana Correia,Sharmistha Jat,Winstead Zhu,Rosie Jones,Jussi Karlgren
発行日 2023-12-13 14:39:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク