Explainability of machine learning approaches in forensic linguistics: a case study in geolinguistic authorship profiling

要約

法医学的著者プロファイリングでは、言語マーカーを使用してテキストの著者に関する特徴を推測します。
このタスクは方言分類と並行して行われ、テキスト自体に基づいてテキストの言語的多様性について予測が行われます。
近年、品種の分類には大きな進歩がありましたが、透明性の欠如などの理由により、法医学言語学はこれらのアプローチにほとんど依存していません。
したがって、この論文では、法医学の文脈を考慮した機械学習アプローチの説明可能性を探ります。
私たちは、ドイツ語圏のソーシャル メディア データに基づいた未知のテキストの地理言語学的プロファイリングの手段としての品種分類に焦点を当てています。
このため、品種分類に最も影響を与える語彙項目を特定します。
抽出された語彙特徴が実際にそれぞれの品種を代表していることがわかり、トレーニングされたモデルも分類のために地名に依存していることに注目します。

要約(オリジナル)

Forensic authorship profiling uses linguistic markers to infer characteristics about an author of a text. This task is paralleled in dialect classification, where a prediction is made about the linguistic variety of a text based on the text itself. While there have been significant advances in recent years in variety classification, forensic linguistics rarely relies on these approaches due to their lack of transparency, among other reasons. In this paper we therefore explore the explainability of machine learning approaches considering the forensic context. We focus on variety classification as a means of geolinguistic profiling of unknown texts based on social media data from the German-speaking area. For this, we identify the lexical items that are the most impactful for the variety classification. We find that the extracted lexical features are indeed representative of their respective varieties and note that the trained models also rely on place names for classifications.

arxiv情報

著者 Dana Roemling,Yves Scherrer,Aleksandra Miletic
発行日 2024-07-01 15:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク