Evolving linguistic divergence on polarizing social media

要約

言語の変化は多くの要因の影響を受けますが、多くの場合、複数の言語パターンや形式が共存する場合、または異なる言語コミュニティがますます異なる方法で言語を使用する場合の共時的変動から始まります。
地域的または経済的理由に加えて、政治的連携に基づいてコミュニティが形成され、分離する場合もあります。
後者は政治的二極化と呼ばれ、世界中で社会的懸念が高まっています。
ここでは、ソーシャル メディア データを使用して、米国における左派と右派の党派間の隔たりにわたる言語の相違をマッピングし、定量化します。
私たちは、(ソーシャル)メディア ユーザーが特定のプラットフォームでどの(偏った可能性がある)ニュース メディア アカウントをフォローし、どのアカウントをフォローしないかに基づいて、政治的嗜好によって(ソーシャル)メディア ユーザーを区別するための一般的な方法論を開発します。
当社のデータは、ソーシャル メディア プラットフォーム Twitter (現在は「X」) からの 10,000 人のユーザーによる 150 万件の短い投稿 (約 2,000 万語) で構成されています。
このサンプルの詳細を明らかにするには、72 の大手ニュース メディア アカウントのフォロワー (n=4 億 2,200 万) のリストをプラットフォームでマイニングする必要がありました。
会話のトピックと単語の頻度、メッセージの感情、単語と絵文字の語彙意味論の相違を定量化します。
以前の研究と一致して、これらすべての側面、特に会話のトピックやテーマにおいて言語の相違の兆候が見つかりました。
米国のアメリカ英語は、その大規模な言語コミュニティ内では依然としてほとんど理解できるものの、二極化が進行しており、したがって言語の相違が生じる可能性があることを考慮すると、最終的には誤解が生じる可能性がある領域を私たちの調査結果は示しています。
データマイニング、辞書統計、機械学習、大規模言語モデル、体系的な人間による注釈アプローチを組み合わせた当社の方法論は、主に言語とプラットフォームに依存しません。
言い換えれば、ここでは米国の政治的分断と米国英語に焦点を当てていますが、同じアプローチは他の国、言語、ソーシャルメディアプラットフォームにも適用できます。

要約(オリジナル)

Language change is influenced by many factors, but often starts from synchronic variation, where multiple linguistic patterns or forms coexist, or where different speech communities use language in increasingly different ways. Besides regional or economic reasons, communities may form and segregate based on political alignment. The latter, referred to as political polarization, is of growing societal concern across the world. Here we map and quantify linguistic divergence across the partisan left-right divide in the United States, using social media data. We develop a general methodology to delineate (social) media users by their political preference, based on which (potentially biased) news media accounts they do and do not follow on a given platform. Our data consists of 1.5M short posts by 10k users (about 20M words) from the social media platform Twitter (now ‘X’). Delineating this sample involved mining the platform for the lists of followers (n=422M) of 72 large news media accounts. We quantify divergence in topics of conversation and word frequencies, messaging sentiment, and lexical semantics of words and emoji. We find signs of linguistic divergence across all these aspects, especially in topics and themes of conversation, in line with previous research. While US American English remains largely intelligible within its large speech community, our findings point at areas where miscommunication may eventually arise given ongoing polarization and therefore potential linguistic divergence. Our methodology – combining data mining, lexicostatistics, machine learning, large language models and a systematic human annotation approach – is largely language and platform agnostic. In other words, while we focus here on US political divides and US English, the same approach is applicable to other countries, languages, and social media platforms.

arxiv情報

著者 Andres Karjus,Christine Cuskley
発行日 2023-09-04 15:21:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SI パーマリンク