Explainability of Machine Learning Approaches in Forensic Linguistics: A Case Study in Geolinguistic Authorship Profiling

要約

法医学的著者プロファイリングでは、言語マーカーを使用してテキストの著者に関する特徴を推測します。
このタスクは方言分類と並行して行われ、テキスト自体に基づいてテキストの言語的多様性について予測が行われます。
ここ数年で品種分類は大幅に進歩しており(Jauhiainen et al., 2019)、最先端のアプローチは品種の類似性や予測範囲に応じて最大 100% の精度に達しています(例: 品種分類)。
、Milne et al.、2012; Blodgett et al.、2017)、透明性の欠如などの理由により、法医学言語学はこれらのアプローチにほとんど依存しません(Nini、2023 を参照)。
したがって、この論文では、法医学の文脈を考慮した機械学習アプローチの説明可能性を検討します。
私たちは、未知のテキストの地理言語学的プロファイリングの手段としての品種分類に焦点を当てています。
このために、私たちは Xie らによって提案されたアプローチを使用します。
(2024) を使用して、品種分類に最も関連する語彙項目を抽出します。
抽出された語彙特徴が実際にそれぞれの品種を代表していることがわかり、トレーニングされたモデルも分類のために地名に依存していることに注目します。

要約(オリジナル)

Forensic authorship profiling uses linguistic markers to infer characteristics about an author of a text. This task is paralleled in dialect classification, where a prediction is made about the linguistic variety of a text based on the text itself. While there have been significant advances in the last years in variety classification (Jauhiainen et al., 2019) and state-of-the-art approaches reach accuracies of up to 100% depending on the similarity of varieties and the scope of prediction (e.g., Milne et al., 2012; Blodgett et al., 2017), forensic linguistics rarely relies on these approaches due to their lack of transparency (see Nini, 2023), amongst other reasons. In this paper we therefore explore explainability of machine learning approaches considering the forensic context. We focus on variety classification as a means of geolinguistic profiling of unknown texts. For this we work with an approach proposed by Xie et al. (2024) to extract the lexical items most relevant to the variety classifications. We find that the extracted lexical features are indeed representative of their respective varieties and note that the trained models also rely on place names for classifications.

arxiv情報

著者 Dana Roemling,Yves Scherrer,Aleksandra Miletic
発行日 2024-04-29 08:52:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク