Combatting Human Trafficking in the Cyberspace: A Natural Language Processing-Based Methodology to Analyze the Language in Online Advertisements

要約

このプロジェクトは、高度な自然言語処理 (NLP) 技術を通じて、オンライン C2C マーケットプレイスにおける人身売買という差し迫った問題に取り組みます。
最小限の監視で擬似ラベル付きデータセットを生成する新しい方法論を紹介し、最先端の NLP モデルをトレーニングするための豊富なリソースとして機能します。
人身売買リスク予測 (HTRP) や組織的活動検出 (OAD) などのタスクに焦点を当て、分析には最先端の Transformer モデルを採用しています。
主な貢献は、統合勾配を使用した解釈可能フレームワークの実装であり、法執行にとって重要な説明可能な洞察を提供します。
この研究は文献の重大なギャップを埋めるだけでなく、オンラインでの人間の搾取と戦うためのスケーラブルな機械学習主導のアプローチも提供します。
これは将来の研究と実用化の基盤として機能し、複雑な社会問題に対処する際の機械学習の役割を強調します。

要約(オリジナル)

This project tackles the pressing issue of human trafficking in online C2C marketplaces through advanced Natural Language Processing (NLP) techniques. We introduce a novel methodology for generating pseudo-labeled datasets with minimal supervision, serving as a rich resource for training state-of-the-art NLP models. Focusing on tasks like Human Trafficking Risk Prediction (HTRP) and Organized Activity Detection (OAD), we employ cutting-edge Transformer models for analysis. A key contribution is the implementation of an interpretability framework using Integrated Gradients, providing explainable insights crucial for law enforcement. This work not only fills a critical gap in the literature but also offers a scalable, machine learning-driven approach to combat human exploitation online. It serves as a foundation for future research and practical applications, emphasizing the role of machine learning in addressing complex social issues.

arxiv情報

著者 Alejandro Rodriguez Perez,Pablo Rivas
発行日 2023-11-22 02:45:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62H30, 68T01, 68T068T50, 68T50, 91C99, cs.AI, cs.CL, cs.CY, cs.LG, cs.SI, I.2.7 パーマリンク