要約
紛争学者は、ルールに基づいたアプローチを使用して、ニュースレポートや文書から政治的暴力に関する情報を抽出してきました。
最近の自然言語処理の開発は、厳密なルールベースのアプローチを超えています。
政治的および暴力関連のテキストを処理するために、最近の ConfliBERT 言語モデル (Hu et al. 2022) をレビューします。
このモデルを使用して、政治的紛争に関するテキストから行為者と行動の分類を抽出できます。
微調整した結果、ConfliBERT は、Google の Gemma 2 (9B)、Meta の Llama 3.1 (7B)、Alibaba の Qwen 2.5 (14B) などの他の大規模言語モデル (LLM) よりも精度、精度、再現率の点で優れたパフォーマンスを示すことがわかりました。
関連するドメイン。
また、これらのより汎用的な LLM よりも数百倍高速です。
これらの結果は、BBC、re3d、および Global Terrorism Dataset (GTD) のテキストを使用して説明されています。
要約(オリジナル)
Conflict scholars have used rule-based approaches to extract information about political violence from news reports and texts. Recent Natural Language Processing developments move beyond rigid rule-based approaches. We review our recent ConfliBERT language model (Hu et al. 2022) to process political and violence related texts. The model can be used to extract actor and action classifications from texts about political conflict. When fine-tuned, results show that ConfliBERT has superior performance in accuracy, precision and recall over other large language models (LLM) like Google’s Gemma 2 (9B), Meta’s Llama 3.1 (7B), and Alibaba’s Qwen 2.5 (14B) within its relevant domains. It is also hundreds of times faster than these more generalist LLMs. These results are illustrated using texts from the BBC, re3d, and the Global Terrorism Dataset (GTD).
arxiv情報
著者 | Patrick T. Brandt,Sultan Alsarra,Vito J. D`Orazio,Dagmar Heintze,Latifur Khan,Shreyas Meher,Javier Osorio,Marcus Sianan |
発行日 | 2024-12-19 17:08:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google