Controlled Territory and Conflict Tracking (CONTACT): (Geo-)Mapping Occupied Territory from Open Source Intelligence

要約

オープンソースインテリジェンスは、領土制御の評価を通知できる非構造化されたテキストデータのストリームを提供します。
大規模な言語モデル(LLM)と最小限の監督を使用した領土制御予測のフレームワークである連絡先を提示します。
2つのアプローチを評価します。SetFit、埋め込みベースの少ないショット分類器、および多言語生成LLMであるBloomz-560Mに適用されるプロンプトチューニング方法。
私たちのモデルは、軍事作戦、死傷者、場所の参照などの制御関連信号の迅速な条件の抽出を使用して、シリアとイラクのISIS活動をカバーするニュース記事の小さな手標識データセットで訓練されています。
BloomzベースのモデルがSetFitベースラインよりも優れていることを示し、その迅速な監督が低リソース設定での一般化を改善することを示します。
連絡先は、少数のショット方法を使用して微調整されたLLMSが注釈の負担を軽減し、オープンエンドのOSINTストリームからの構造化された推論をサポートできることを示しています。
私たちのコードは、https://github.com/paulkmandal/contact/で入手できます。

要約(オリジナル)

Open-source intelligence provides a stream of unstructured textual data that can inform assessments of territorial control. We present CONTACT, a framework for territorial control prediction using large language models (LLMs) and minimal supervision. We evaluate two approaches: SetFit, an embedding-based few-shot classifier, and a prompt tuning method applied to BLOOMZ-560m, a multilingual generative LLM. Our model is trained on a small hand-labeled dataset of news articles covering ISIS activity in Syria and Iraq, using prompt-conditioned extraction of control-relevant signals such as military operations, casualties, and location references. We show that the BLOOMZ-based model outperforms the SetFit baseline, and that prompt-based supervision improves generalization in low-resource settings. CONTACT demonstrates that LLMs fine-tuned using few-shot methods can reduce annotation burdens and support structured inference from open-ended OSINT streams. Our code is available at https://github.com/PaulKMandal/CONTACT/.

arxiv情報

著者 Paul K. Mandal,Cole Leo,Connor Hurley
発行日 2025-04-18 14:57:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.6 パーマリンク