要約
ポッドキャストは、独自のオンデマンド方式を通じて、非常に多様なコンテンツを大規模なリスナーベースに提供します。
しかし、データが限られているため、ポッドキャスト エコシステムの大規模な計算分析は妨げられています。
このギャップを埋めるために、2020 年 5 月から 6 月にかけて公開 RSS フィードを通じて利用できるすべての英語ポッドキャストをほぼ包括する、110 万を超えるポッドキャスト トランスクリプトの大規模なデータセットを導入しました。このデータにはテキストに限定されず、むしろ音声機能が含まれています。
370,000 エピソードのサブセットのスピーカー ターンと、すべての 110 万エピソードのスピーカーの役割の推論とその他のメタデータ。
このデータを使用して、このエコシステムの内容、構造、応答性に関する基礎調査も行います。
私たちのデータと分析を組み合わせることで、この人気があり影響力のあるメディアの継続的な計算研究への扉が開かれます。
要約(オリジナル)
Podcasts provide highly diverse content to a massive listener base through a unique on-demand modality. However, limited data has prevented large-scale computational analysis of the podcast ecosystem. To fill this gap, we introduce a massive dataset of over 1.1M podcast transcripts that is largely comprehensive of all English language podcasts available through public RSS feeds from May and June of 2020. This data is not limited to text, but rather includes audio features and speaker turns for a subset of 370K episodes, and speaker role inferences and other metadata for all 1.1M episodes. Using this data, we also conduct a foundational investigation into the content, structure, and responsiveness of this ecosystem. Together, our data and analyses open the door to continued computational research of this popular and impactful medium.
arxiv情報
著者 | Benjamin Litterer,David Jurgens,Dallas Card |
発行日 | 2024-11-12 15:56:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google