要約
本稿では、YouTubeのYT-30M(およびYT-100K)という2つの大規模な多言語コメントデータセットを紹介する。本論文の分析はYT-30Mの小さいサンプル(YT-100K)に対して行われる。どちらのデータセットもYT-30M(フル)とYT-100K(YT-30Mから無作為に選ばれた10万サンプル)は、さらなる研究のために公開されている。YT-30M(YT-100K)には、YouTubeカテゴリに属するYouTubeチャンネルによって投稿された32236173(108694)件のコメントが含まれる。各コメントには、動画ID、コメントID、コメント投稿者名、コメント投稿者チャンネルID、コメント本文、アップヴォート、元のチャンネルID、YouTubeチャンネルのカテゴリ(「ニュース&政治」「科学&技術」など)が関連付けられている。
要約(オリジナル)
This paper introduces two large-scale multilingual comment datasets, YT-30M (and YT-100K) from YouTube. The analysis in this paper is performed on a smaller sample (YT-100K) of YT-30M. Both the datasets: YT-30M (full) and YT-100K (randomly selected 100K sample from YT-30M) are publicly released for further research. YT-30M (YT-100K) contains 32236173 (108694) comments posted by YouTube channel that belong to YouTube categories. Each comment is associated with a video ID, comment ID, commentor name, commentor channel ID, comment text, upvotes, original channel ID and category of the YouTube channel (e.g., ‘News & Politics’, ‘Science & Technology’, etc.).
arxiv情報
著者 | Hridoy Sankar Dutta |
発行日 | 2024-12-04 16:54:58+00:00 |
arxivサイト | arxiv_id(pdf) |