CPSDBench: A Large Language Model Evaluation Benchmark and Baseline for Chinese Public Security Domain

要約

大規模言語モデル(Large Language Models:LLM)は、複数の応用領域において大きな可能性と有効性を示している。公安タスクにおける主流のLLMの性能を評価するため、本研究では、中国の公安ドメインに特化した評価ベンチマーク–CPSDbench–を構築することを目的とする。CPSDbenchは、実世界のシナリオから収集された公安関連のデータセットを統合し、テキスト分類、情報抽出、質問応答、テキスト生成の4つの主要な次元にわたるLLMの包括的な評価をサポートする。さらに、本研究では、公共安全保障に関連するタスクの実行におけるLLMの有効性をより正確に定量化するために設計された革新的な評価指標のセットを紹介する。本研究で実施した詳細な分析と評価を通じて、公共セキュリティ問題に対処するための既存モデルの性能の強みと限界についての理解を深めるだけでなく、この分野のアプリケーションを対象とした、より正確でカスタマイズされたLLMモデルの将来の開発のための参考資料も提供する。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated significant potential and effectiveness across multiple application domains. To assess the performance of mainstream LLMs in public security tasks, this study aims to construct a specialized evaluation benchmark tailored to the Chinese public security domain–CPSDbench. CPSDbench integrates datasets related to public security collected from real-world scenarios, supporting a comprehensive assessment of LLMs across four key dimensions: text classification, information extraction, question answering, and text generation. Furthermore, this study introduces a set of innovative evaluation metrics designed to more precisely quantify the efficacy of LLMs in executing tasks related to public security. Through the in-depth analysis and evaluation conducted in this research, we not only enhance our understanding of the performance strengths and limitations of existing models in addressing public security issues but also provide references for the future development of more accurate and customized LLM models targeted at applications in this field.

arxiv情報

著者 Xin Tong,Bo Jin,Zhi Lin,Binjun Wang,Ting Yu,Qiang Cheng
発行日 2024-03-03 01:26:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI パーマリンク