LAiW: A Chinese Legal Large Language Models Benchmark (A Technical Report)

要約

多数の法的LLMが出現しているため、現在、彼らの法的能力を評価するための包括的なベンチマークが不足しています。
このペーパーでは、法的能力に基づいた初の中国法務 LLM ベンチマークを提案します。
法律専門家と人工知能専門家の協力的な取り組みを通じて、LLM の法的能力を、基本的な法的 NLP 能力、基本的な法的適用能力、および複雑な法的適用能力の 3 つのレベルに分類します。
私たちは、主に基本的な法的 NLP の能力に焦点を当てた評価の第 1 段階を完了しました。
評価結果は、一部の合法 LLM はバックボーンよりもパフォーマンスが優れているものの、ChatGPT と比較するとまだ差があることを示しています。
私たちのベンチマークは URL でご覧いただけます。

要約(オリジナル)

With the emergence of numerous legal LLMs, there is currently a lack of a comprehensive benchmark for evaluating their legal abilities. In this paper, we propose the first Chinese Legal LLMs benchmark based on legal capabilities. Through the collaborative efforts of legal and artificial intelligence experts, we divide the legal capabilities of LLMs into three levels: basic legal NLP capability, basic legal application capability, and complex legal application capability. We have completed the first phase of evaluation, which mainly focuses on the capability of basic legal NLP. The evaluation results show that although some legal LLMs have better performance than their backbones, there is still a gap compared to ChatGPT. Our benchmark can be found at URL.

arxiv情報

著者 Yongfu Dai,Duanyu Feng,Jimin Huang,Haochen Jia,Qianqian Xie,Yifang Zhang,Weiguang Han,Wei Tian,Hao Wang
発行日 2023-10-09 11:19:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク