要約
目的: 警察と公共のやりとりを記述する日常的に収集される非構造化テキストの脆弱性の有無を分類する際に、命令調整大規模言語モデル (IT-LLM) の定性的コーディングと人間のコーディング者を比較します。
IT-LLM コーディングの潜在的なバイアスを評価します。
方法: ボストン警察署が記録した警察と公衆のやりとりに関する公的に入手可能なテキストの説明を分析し、人間と IT-LLM に定性的なラベル付けコードブックを提供し、両方によって生成されたラベルを比較して、(i) 精神的不健康に関連する状況を特定することを目指します。
(ii) 物質の誤用。
(iii) アルコール依存症。
(iv) ホームレス。
複数のプロンプト戦略とモデルのサイズ、および繰り返しのプロンプトによって生成されるラベルの変動性を調査します。
さらに、モデルのバイアスを調査するために、反事実的手法を利用して、人種と性別という 2 つの保護された特性が IT-LLM 分類に及ぼす影響を評価します。
結果: 結果は、IT-LLM が警察事件の物語の人による定性的コーディングを効果的にサポートできることを示しています。
LLM と人間が生成したラベルの間には意見の相違がありますが、IT-LLM は脆弱性が存在しないナラティブをスクリーニングするのに非常に効果的であり、人間によるコーディングの要件を大幅に削減できる可能性があります。
反事実分析は、物語の中で記述された個人の性別と人種の両方に対する操作が、偶然に予想される以上に IT-LLM 分類に与える影響が非常に限定的であることを示しています。
結論: IT-LLM は、大規模な非構造化データセットを分析するために必要なリソースのレベルがはるかに低い方法で、人間による定性コーディングを強化する効果的な手段を提供します。
さらに、定性コーディングの特異性を促進し、透明性を促進し、大規模な自由テキストの警察データ ソースを分析するための、より標準化された複製可能なアプローチの機会を提供します。
要約(オリジナル)
Objectives: Compare qualitative coding of instruction tuned large language models (IT-LLMs) against human coders in classifying the presence or absence of vulnerability in routinely collected unstructured text that describes police-public interactions. Evaluate potential bias in IT-LLM codings. Methods: Analyzing publicly available text narratives of police-public interactions recorded by Boston Police Department, we provide humans and IT-LLMs with qualitative labelling codebooks and compare labels generated by both, seeking to identify situations associated with (i) mental ill health; (ii) substance misuse; (iii) alcohol dependence; and (iv) homelessness. We explore multiple prompting strategies and model sizes, and the variability of labels generated by repeated prompts. Additionally, to explore model bias, we utilize counterfactual methods to assess the impact of two protected characteristics – race and gender – on IT-LLM classification. Results: Results demonstrate that IT-LLMs can effectively support human qualitative coding of police incident narratives. While there is some disagreement between LLM and human generated labels, IT-LLMs are highly effective at screening narratives where no vulnerabilities are present, potentially vastly reducing the requirement for human coding. Counterfactual analyses demonstrate that manipulations to both gender and race of individuals described in narratives have very limited effects on IT-LLM classifications beyond those expected by chance. Conclusions: IT-LLMs offer effective means to augment human qualitative coding in a way that requires much lower levels of resource to analyze large unstructured datasets. Moreover, they encourage specificity in qualitative coding, promote transparency, and provide the opportunity for more standardized, replicable approaches to analyzing large free-text police data sources.
arxiv情報
著者 | Sam Relins,Daniel Birks,Charlie Lloyd |
発行日 | 2024-12-16 15:27:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google