要約
この章では、ソーシャルメディアデータを使用して、場所の言語的行動の変化を調べることの有効性を調査します。
私たちは、国勢調査の公式統計が言語使用データの唯一の源であるAotearoaニュージーランドに調査を焦点を当てています。
公開された国勢調査データをグラウンドトゥルースとして使用し、グローバル言語使用のコーパスからのソーシャルメディアサブコルパスを代替データソースとして使用します。
2つのデータソース間の共通分母として場所を使用します。
ソーシャルメディアデータセットの各ツイートの言語条件を特定し、2つの言語識別モデルで結果を検証しました。
次に、国家、地域、地域の地域で言語の多様性のレベルを比較します。
結果は、ソーシャルメディアの言語データが、場所の言語プロファイルに関する空間的および時間的洞察の豊富なソースを提供する可能性があることを示唆しています。
ソーシャルメディアは、言語内および低レベルの地域および地域の地域における人口統計的および社会政治的変化に敏感であることを示しています。
要約(オリジナル)
This chapter explores the efficacy of using social media data to examine changing linguistic behaviour of a place. We focus our investigation on Aotearoa New Zealand where official statistics from the census is the only source of language use data. We use published census data as the ground truth and the social media sub-corpus from the Corpus of Global Language Use as our alternative data source. We use place as the common denominator between the two data sources. We identify the language conditions of each tweet in the social media data set and validated our results with two language identification models. We then compare levels of linguistic diversity at national, regional, and local geographies. The results suggest that social media language data has the possibility to provide a rich source of spatial and temporal insights on the linguistic profile of a place. We show that social media is sensitive to demographic and sociopolitical changes within a language and at low-level regional and local geographies.
arxiv情報
| 著者 | Sidney Wong,Benjamin Adams,Jonathan Dunn |
| 発行日 | 2025-02-28 16:56:34+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google