要約
オンライン ソーシャル メディア上の政治的二極化を特徴付ける機械学習モデルの開発には、大きな課題が伴います。
これらの課題は主に、注釈付きデータの欠如、ソーシャル メディア データセット内のノイズの存在、データの膨大な量など、さまざまな要因に起因します。
一般的な調査手法では、特定のトピックに関するオンライン ユーザー コミュニティの偏った構造を調査したり、ソーシャル メディアにおける二極化したトピックの影響を定性的に測定したりすることが一般的です。
しかし、地上レベル、特にソーシャルメディアの投稿そのものにおける二極化の分析に焦点を当てた研究は限られている。
このような既存の分析は注釈付きデータに大きく依存しており、多くの場合、人間による手間のかかるラベル付けが必要であり、特定の問題に対してのみラベルが提供され、ソーシャルメディアでの会話の近い将来のバイアス状態を判断する機能が欠けています。
ソーシャル メディアの投稿で伝えられる政治的指向の度合いを理解することは、オンライン ユーザー コミュニティの偏りを定量化し、二極化したコンテンツの広がりを調査するために重要です。
この研究では、まず、ニュース メディアのバイアスを活用し、コンテンツを投稿してソーシャル メディアの投稿にラベルを付ける 2 つのヒューリスティックな手法を紹介します。
次に、ヒューリスティックにラベル付けされたデータセットの有効性と品質を、ランダムにサンプリングされた人間による注釈付きデータセットと比較します。
さらに、従来の教師あり学習と少数ショット学習の両方の設定を採用することで、現在の機械学習モデルがソーシャル メディア投稿の政治的方向性を予測する際のパフォーマンスが向上することを実証します。
私たちは、提案されたヒューリスティック手法と機械学習アプローチを使用して実験を実施し、さまざまな政治イデオロギーを持つ 2 つのソーシャル メディア フォーラム (Gab と Twitter) から収集された投稿の政治的方向性を予測します。
要約(オリジナル)
Developing machine learning models to characterize political polarization on online social media presents significant challenges. These challenges mainly stem from various factors such as the lack of annotated data, presence of noise in social media datasets, and the sheer volume of data. The common research practice typically examines the biased structure of online user communities for a given topic or qualitatively measuring the impacts of polarized topics on social media. However, there is limited work focusing on analyzing polarization at the ground-level, specifically in the social media posts themselves. Such existing analysis heavily relies on annotated data, which often requires laborious human labeling, offers labels only to specific problems, and lacks the ability to determine the near-future bias state of a social media conversations. Understanding the degree of political orientation conveyed in social media posts is crucial for quantifying the bias of online user communities and investigating the spread of polarized content. In this work, we first introduce two heuristic methods that leverage on news media bias and post content to label social media posts. Next, we compare the efficacy and quality of heuristically labeled dataset with a randomly sampled human-annotated dataset. Additionally, we demonstrate that current machine learning models can exhibit improved performance in predicting political orientation of social media posts, employing both traditional supervised learning and few-shot learning setups. We conduct experiments using the proposed heuristic methods and machine learning approaches to predict the political orientation of posts collected from two social media forums with diverse political ideologies: Gab and Twitter.
arxiv情報
著者 | Sadia Kamal,Brenner Little,Jade Gullic,Trevor Harms,Kristin Olofsson,Arunkumar Bagavathi |
発行日 | 2023-11-21 03:34:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google