要約
虐待報告サービスは、被害者が受けた虐待に関する報告を収集します。
提出された報告を正確に分類することは、さまざまな種類の虐待(セクストーション、投資、恋愛など)の蔓延と経済的影響を分析するための基礎となります。
現在の分類手法には問題があります。なぜなら、報告者が分類に必要な経験を持っていることを前提として、リストから虐待の種類を選択する必要があるためです。これは、多くの場合、そうではないことが示されています。また、アナリストによる手動分類が必要であり、規模が大きくありません。
。
これらの問題に対処するために、この文書では、仮想通貨の不正使用レポートを自動的に分類するための新しいアプローチを紹介します。
まず、頻繁に報告される 19 種類の不正行為の分類を構築します。
レポーターによって書かれたテキストの説明が入力として与えられると、分類器は大規模言語モデル (LLM) を活用してテキストを解釈し、分類法での不正行為のタイプを割り当てます。
当社は、BitcoinAbuse と BBB の ScamTracker という 2 つの人気のある報告サービスから 29 万件の暗号通貨不正使用報告を収集しています。
これらのレポートのうち 20,000 件のグラウンド トゥルース データセットを構築し、それらを使用して、LLM ベースの分類器の 3 つの設計と 4 つの LLM、およびベースラインとして使用される教師あり ML 分類器を評価します。
LLM ベースの分類器は、ベースラインの F1 スコア 0.55 と比較して、精度 0.92、再現率 0.87、F1 スコア 0.89 を達成しました。
分類子を 2 つのアプリケーションでデモンストレーションします。1 つは、きめ細かい悪用タイプの経済的損失統計の提供、もう 1 つは暗号通貨分析プラットフォーム用のタグ付きアドレスの生成です。
要約(オリジナル)
Abuse reporting services collect reports about abuse victims have suffered. Accurate classification of the submitted reports is fundamental to analyzing the prevalence and financial impact of different abuse types (e.g., sextortion, investment, romance). Current classification approaches are problematic because they require the reporter to select the abuse type from a list, assuming the reporter has the necessary experience for the classification, which we show is frequently not the case, or require manual classification by analysts, which does not scale. To address these issues, this paper presents a novel approach to classify cryptocurrency abuse reports automatically. We first build a taxonomy of 19 frequently reported abuse types. Given as input the textual description written by the reporter, our classifier leverages a large language model (LLM) to interpret the text and assign it an abuse type in our taxonomy. We collect 290K cryptocurrency abuse reports from two popular reporting services: BitcoinAbuse and BBB’s ScamTracker. We build ground truth datasets for 20K of those reports and use them to evaluate three designs for our LLM-based classifier and four LLMs, as well as a supervised ML classifier used as a baseline. Our LLM-based classifier achieves a precision of 0.92, a recall of 0.87, and an F1 score of 0.89, compared to an F1 score of 0.55 for the baseline. We demonstrate our classifier in two applications: providing financial loss statistics for fine-grained abuse types and generating tagged addresses for cryptocurrency analysis platforms.
arxiv情報
著者 | Gibran Gomez,Kevin van Liebergen,Davide Sanvito,Giuseppe Siracusano,Roberto Gonzalez,Juan Caballero |
発行日 | 2024-10-28 13:58:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google