Understanding Lexical Biases when Identifying Gang-related Social Media Communications

要約

タイトル:SNS上のギャング関連コミュニケーションを特定する際の語彙的バイアスの理解

要約:ギャング活動に関わる個人は、悲観な捧げ物や慰霊だけでなく、挑発や脅迫の表現にも、FacebookやTwitterなどの主流のソーシャルメディアを使用します。しかし、ソーシャルメディアソースを介して地域社会メンバーのニーズを提供するために、ギャング関連活動の影響を特定することには独自の課題があります。これには、ギャング活動に影響を受ける個人の訓練データを倫理的に特定する困難性や、これらの個人がよくツイートで使用する非標準的な言語スタイルの考慮が必要です。本研究では、自然言語処理ツールが、カウンセラーや紛争調停者、学術/専門トレーニングプログラムなどのコミュニティケアリソースを必要としている可能性がある個人を効率的に特定するのに役立つ方法を提供する証拠を示します。シカゴに関連するギャング関連ツイートのサンプルを使用して、バイナリロジスティック分類器がギャング関連暴力の影響を受ける個人を特定する基準よりも優れていることを示します。最終的に、ツイートの言語が非常に重要であり、「ビッグデータ」メソッドや機械学習モデルがどのようにモデルのパフォーマンスに影響し、どのように人口の差別化をするかをよりよく理解する必要があることがわかりました。

– ソーシャルメディアを使ったギャング活動の特定には課題がある。
– 訓練データを倫理的に特定すること、ツイートの非標準的な言語スタイルを考慮する必要がある。
– 自然言語処理ツールがコミュニティケアリソースを必要としている個人を特定するのに役立つ方法がある。
– バイナリロジスティック分類器がギャング関連暴力の影響を受ける個人を特定する基準よりも優れていることが示された。
– ツイートの言語が非常に重要であるため、ツールやモデルが言語に影響を受けることを理解する必要がある。

要約(オリジナル)

Individuals involved in gang-related activity use mainstream social media including Facebook and Twitter to express taunts and threats as well as grief and memorializing. However, identifying the impact of gang-related activity in order to serve community member needs through social media sources has a unique set of challenges. This includes the difficulty of ethically identifying training data of individuals impacted by gang activity and the need to account for a non-standard language style commonly used in the tweets from these individuals. Our study provides evidence of methods where natural language processing tools can be helpful in efficiently identifying individuals who may be in need of community care resources such as counselors, conflict mediators, or academic/professional training programs. We demonstrate that our binary logistic classifier outperforms baseline standards in identifying individuals impacted by gang-related violence using a sample of gang-related tweets associated with Chicago. We ultimately found that the language of a tweet is highly relevant and that uses of “big data” methods or machine learning models need to better understand how language impacts the model’s performance and how it discriminates among populations.

arxiv情報

著者 Dhiraj Murthy,Constantine Caramanis,Koustav Rudra
発行日 2023-04-22 21:51:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SI, I.2.7 パーマリンク