Police Text Analysis: Topic Modeling and Spatial Relative Density Estimation


これを行う動機は、各インシデント レポートの警察の説明には、警察が手動で割り当てたカテゴリよりも豊富な非常に詳細な情報が含まれているためです。
私たちのアプローチは、2 つの異なる教師なし機械学習アルゴリズム (潜在的ディリクレ配分法と非負行列因数分解) を使用して、コーパスをトピックに分割することです。
モデルの一貫性を使用して、各学習トピック モデルのパフォーマンスを検証します。
次に、提案する k 最近傍密度比推定 (kNN-DRE) アプローチを使用して、トピックごとの空間密度比を推定し、これを各トピックのデータ検出と分析に使用して、記述されたインシデントを大規模に洞察できるようにします。
各トピックの定性的評価を提供し、kNN-DRE モデルを使用して空間傾向を推定することの主な利点を強調します。


We analyze a large corpus of police incident narrative documents in understanding the spatial distribution of the topics. The motivation for doing this is that police narratives in each incident report contains very fine-grained information that is richer than the category that is manually assigned by the police. Our approach is to split the corpus into topics using two different unsupervised machine learning algorithms – Latent Dirichlet Allocation and Non-negative Matrix Factorization. We validate the performance of each learned topic model using model coherence. Then, using a k-nearest neighbors density ratio estimation (kNN-DRE) approach that we propose, we estimate the spatial density ratio per topic and use this for data discovery and analysis of each topic, allowing for insights into the described incidents at scale. We provide a qualitative assessment of each topic and highlight some key benefits for using our kNN-DRE model for estimating spatial trends.


著者 Sarah Huestis-Mitchell,Xiuyuan Cheng,Yao Xie
発行日 2023-02-27 20:41:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク