Analyzing Trendy Twitter Hashtags in the 2022 French Election

要約

ソーシャル メディア ユーザーの将来のアクティビティを予測するためにトレーニングされた回帰には、正確な予測を行うための豊富な機能が必要です。
このような機能を生成するための高度なモデルが多数存在します。
ただし、巨大なデータセットで実行すると、計算の時間計算量が法外になることがよくあります。
いくつかの研究では、単純なセマンティック ネットワークの機能が、複雑な計算を必要とせずに回帰に使用できるほど豊富であることが示されています。
機械学習タスクのユーザーレベルの機能としてセマンティックネットワークを使用する方法を提案します。
私たちは、2022 年のフランス大統領選挙に関連する 370 万件のツイートのコーパスから 1,037 個の Twitter ハッシュタグのセマンティック ネットワークを使用して実験を実施しました。
ハッシュタグがノードであり、両方のハッシュタグと対話した Twitter ユーザーの数を反映する重み付けされたエッジがハッシュタグを接続する 2 部グラフが形成されます。
次に、グラフは、最も人気のあるハッシュタグをルート ノードとして持つ最大範囲ツリーに変換され、ハッシュタグ間の階層が構築されます。
次に、このツリーに基づいて各ユーザーにベクトル特徴を提供します。
セマンティック機能の有用性を検証するために、怒り、楽しみ、嫌悪感などの 6 つの感情に対する各ユーザーの応答率を予測する回帰実験を実行しました。
私たちのセマンティック特徴は、ほとんどの感情の $R^2$ が 0.5 を超える回帰で良好に機能します。
これらの結果は、私たちのセマンティック特徴が、ビッグデータセットでソーシャルメディアの反応を予測するさらなる実験での使用を検討できることを示唆しています。

要約(オリジナル)

Regressions trained to predict the future activity of social media users need rich features for accurate predictions. Many advanced models exist to generate such features; however, the time complexities of their computations are often prohibitive when they run on enormous data-sets. Some studies have shown that simple semantic network features can be rich enough to use for regressions without requiring complex computations. We propose a method for using semantic networks as user-level features for machine learning tasks. We conducted an experiment using a semantic network of 1037 Twitter hashtags from a corpus of 3.7 million tweets related to the 2022 French presidential election. A bipartite graph is formed where hashtags are nodes and weighted edges connect the hashtags reflecting the number of Twitter users that interacted with both hashtags. The graph is then transformed into a maximum-spanning tree with the most popular hashtag as its root node to construct a hierarchy amongst the hashtags. We then provide a vector feature for each user based on this tree. To validate the usefulness of our semantic feature we performed a regression experiment to predict the response rate of each user with six emotions like anger, enjoyment, or disgust. Our semantic feature performs well with the regression with most emotions having $R^2$ above 0.5. These results suggest that our semantic feature could be considered for use in further experiments predicting social media response on big data-sets.

arxiv情報

著者 Aamir Mandviwalla,Lake Yin,Boleslaw K. Szymanski
発行日 2023-10-11 15:17:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SI パーマリンク