PoPreRo: A New Dataset for Popularity Prediction of Romanian Reddit Posts

要約

Redditから収集したルーマニアの投稿の人気度予測のための最初のデータセットであるPoPreRoを紹介する。PoPreRoデータセットには、ルーマニアの5つの異なるサブRedditからの投稿サンプルの様々なコンパイルが含まれ、合計28,107のデータサンプルが含まれる。我々の新しいデータセットとともに、今後の研究のベースラインとして使用するための競合モデル群を紹介する。興味深いことに、トップスコアのモデルはテストセットにおいて61.35%の精度と60.60%のマクロF1スコアを達成しており、PoPreRoにおける人気予測タスクが非常に困難であることを示している。また、Falcon-7B大規模言語モデルを用いたプロンプト数ショットに基づく更なる調査も同じ方向を示している。従って、PoPreRoはルーマニア語のソーシャルメディア投稿の人気度予測モデルの評価に利用できる貴重なリソースであると信じている。我々のデータセットをhttps://github.com/ana-rogoz/PoPreRo。

要約(オリジナル)

We introduce PoPreRo, the first dataset for Popularity Prediction of Romanian posts collected from Reddit. The PoPreRo dataset includes a varied compilation of post samples from five distinct subreddits of Romania, totaling 28,107 data samples. Along with our novel dataset, we introduce a set of competitive models to be used as baselines for future research. Interestingly, the top-scoring model achieves an accuracy of 61.35% and a macro F1 score of 60.60% on the test set, indicating that the popularity prediction task on PoPreRo is very challenging. Further investigations based on few-shot prompting the Falcon-7B Large Language Model also point in the same direction. We thus believe that PoPreRo is a valuable resource that can be used to evaluate models on predicting the popularity of social media posts in Romanian. We release our dataset at https://github.com/ana-rogoz/PoPreRo.

arxiv情報

著者 Ana-Cristina Rogoz,Maria Ilinca Nechita,Radu Tudor Ionescu
発行日 2024-07-05 14:28:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク