要約
オープンソースインテリジェンスは、領土制御の評価を通知できる非構造化されたテキストデータのストリームを提供します。
大規模な言語モデル(LLM)と最小限の監督を使用した領土制御予測のフレームワークである連絡先を提示します。
2つのアプローチを評価します。SetFit、埋め込みベースの少ないショット分類器、および多言語生成LLMであるBloomz-560Mに適用されるプロンプトチューニング方法。
私たちのモデルは、軍事作戦、死傷者、場所の参照などの制御関連信号の迅速な条件の抽出を使用して、シリアとイラクのISIS活動をカバーするニュース記事の小さな手標識データセットで訓練されています。
BloomzベースのモデルがSetFitベースラインよりも優れていることを示し、その迅速な監督が低リソース設定での一般化を改善することを示します。
連絡先は、少数のショット方法を使用して微調整されたLLMSが注釈の負担を軽減し、オープンエンドのOSINTストリームからの構造化された推論をサポートできることを示しています。
私たちのコードは、https://github.com/paulkmandal/contact/で入手できます。
要約(オリジナル)
Open-source intelligence provides a stream of unstructured textual data that can inform assessments of territorial control. We present CONTACT, a framework for territorial control prediction using large language models (LLMs) and minimal supervision. We evaluate two approaches: SetFit, an embedding-based few-shot classifier, and a prompt tuning method applied to BLOOMZ-560m, a multilingual generative LLM. Our model is trained on a small hand-labeled dataset of news articles covering ISIS activity in Syria and Iraq, using prompt-conditioned extraction of control-relevant signals such as military operations, casualties, and location references. We show that the BLOOMZ-based model outperforms the SetFit baseline, and that prompt-based supervision improves generalization in low-resource settings. CONTACT demonstrates that LLMs fine-tuned using few-shot methods can reduce annotation burdens and support structured inference from open-ended OSINT streams. Our code is available at https://github.com/PaulKMandal/CONTACT/.
arxiv情報
著者 | Paul K. Mandal,Cole Leo,Connor Hurley |
発行日 | 2025-04-18 14:57:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google