Classifying Crime Types using Judgment Documents from Social Media

要約

犯罪行為の事実に基づいて犯罪の種類を判断するという作業は、社会科学において非常に重要かつ有意義な作業となっています。
しかし、現在この分野が直面している問題は、犯罪自体の性質により、データサンプル自体が不均一に分散していることです。
同時に、司法分野のデータセットはあまり公開されておらず、直接トレーニング用に大規模なデータセットを作成することは現実的ではありません。
この記事では、NLP 処理手法を通じてこの問題を解決するための新しいトレーニング モデルを提案します。
まず、新しいサンプルを生成することで不均一なデータセット分布の欠陥をバランスさせることができる犯罪事実データ前処理モジュール (CFDPM) を提案します。
次に、大規模なオープンソース データセット (CAIL-big) を事前トレーニング データセットとして使用し、微調整のために独自に収集した小規模なデータセットを使用して、なじみのない小規模なデータセットに対して優れた一般化機能を与えます。
同時に、動的マスキングを備えた改良された Bert モデルを使用してモデルを改善します。
実験は、提案された方法が現在のデータセットで最先端の結果を達成することを示しています。
同時に、モジュール CFDPM の有効性が実験によって証明されます。
この記事は、犯罪行為などの社会科学テキストを分類するための貴重な方法論の貢献を提供します。
公開ベンチマークでの広範な実験により、提案された方法が新しい最先端の結果を達成することが示されています。

要約(オリジナル)

The task of determining crime types based on criminal behavior facts has become a very important and meaningful task in social science. But the problem facing the field now is that the data samples themselves are unevenly distributed, due to the nature of the crime itself. At the same time, data sets in the judicial field are less publicly available, and it is not practical to produce large data sets for direct training. This article proposes a new training model to solve this problem through NLP processing methods. We first propose a Crime Fact Data Preprocessing Module (CFDPM), which can balance the defects of uneven data set distribution by generating new samples. Then we use a large open source dataset (CAIL-big) as our pretraining dataset and a small dataset collected by ourselves for Fine-tuning, giving it good generalization ability to unfamiliar small datasets. At the same time, we use the improved Bert model with dynamic masking to improve the model. Experiments show that the proposed method achieves state-of-the-art results on the present dataset. At the same time, the effectiveness of module CFDPM is proved by experiments. This article provides a valuable methodology contribution for classifying social science texts such as criminal behaviors. Extensive experiments on public benchmarks show that the proposed method achieves new state-of-the-art results.

arxiv情報

著者 Haoxuan Xu,Zeyu He,Mengfan Shen,Songning Lai,Ziqiang Han,Yifan Peng
発行日 2023-06-29 15:12:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク