CPSDBench: A Large Language Model Evaluation Benchmark and Baseline for Chinese Public Security Domain

要約

大規模言語モデル (LLM) は、複数のアプリケーション ドメインにわたって大きな可能性と有効性を実証しています。
公安業務における主流の LLM のパフォーマンスを評価するために、この研究は中国の公安分野に合わせた特殊な評価ベンチマークである CPSDbench を構築することを目的としています。
CPSDbench は、現実世界のシナリオから収集された公安関連のデータセットを統合し、テキスト分類、情報抽出、質問応答、テキスト生成という 4 つの主要な側面にわたる LLM の包括的な評価をサポートします。
さらに、この研究では、公共の安全に関連するタスクを実行する際の LLM の有効性をより正確に定量化するために設計された一連の革新的な評価指標が導入されています。
この研究で行われた詳細な分析と評価を通じて、公共の安全の問題に対処する際の既存のモデルのパフォーマンスの強みと限界についての理解を深めるだけでなく、次のような目的を対象とした、より正確でカスタマイズされた LLM モデルの将来の開発のための参考資料も提供します。
この分野での応用。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated significant potential and effectiveness across multiple application domains. To assess the performance of mainstream LLMs in public security tasks, this study aims to construct a specialized evaluation benchmark tailored to the Chinese public security domain–CPSDbench. CPSDbench integrates datasets related to public security collected from real-world scenarios, supporting a comprehensive assessment of LLMs across four key dimensions: text classification, information extraction, question answering, and text generation. Furthermore, this study introduces a set of innovative evaluation metrics designed to more precisely quantify the efficacy of LLMs in executing tasks related to public security. Through the in-depth analysis and evaluation conducted in this research, we not only enhance our understanding of the performance strengths and limitations of existing models in addressing public security issues but also provide references for the future development of more accurate and customized LLM models targeted at applications in this field.

arxiv情報

著者 Xin Tong,Bo Jin,Zhi Lin,Binjun Wang,Ting Yu,Qiang Cheng
発行日 2024-03-21 12:39:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク