LawBench: Benchmarking Legal Knowledge of Large Language Models

要約

大規模言語モデル (LLM) は、さまざまな側面で強力な機能を実証しています。
しかし、専門性が高く安全性が重要な法的領域に彼らを適用する場合、彼らがどの程度の法的知識を有し、法的関連業務を確実に遂行できるかは不透明です。
このギャップに対処するために、私たちは包括的な評価ベンチマークである LawBench を提案します。
LawBench は、LLM の法的能力を 3 つの認知レベルから正確に評価できるように細心の注意を払って作成されています。(1) 法的知識の暗記: LLM が必要な法的概念、条文、事実を暗記できるかどうか。
(2) 法的知識の理解: LLM が法文内のエンティティ、出来事、および関係を理解できるかどうか。
(3) 法的知識の適用: LLM が法的知識を適切に活用し、現実的な法的課題を解決するために必要な推論手順を実行できるかどうか。
LawBench には、単一ラベル分類 (SLC)、複数ラベル分類 (MLC)、回帰、抽出、生成の 5 つのタスク タイプをカバーする 20 の多様なタスクが含まれています。
私たちは、20 の多言語 LLM、22 の中国語指向 LLM、および 9 の法律に特化した LLM を含む、51 の LLM の広範な評価を LawBench で実行します。
結果は、GPT-4 が引き続き法的領域で最もパフォーマンスの高い LLM であり、他の LLM を大幅に上回っていることを示しています。
法律特有のテキストに基づいて LLM を微調整すると、一定の改善がもたらされますが、法律業務で使用可能で信頼できる LLM を入手するには、まだ長い道のりがあります。
すべてのデータ、モデル予測、評価コードは https://github.com/open-compass/LawBench/ で公開されています。
このベンチマークによって、LLM のドメイン固有の機能が深く理解され、法的ドメインでの LLM の開発が加速されることを願っています。

要約(オリジナル)

Large language models (LLMs) have demonstrated strong capabilities in various aspects. However, when applying them to the highly specialized, safe-critical legal domain, it is unclear how much legal knowledge they possess and whether they can reliably perform legal-related tasks. To address this gap, we propose a comprehensive evaluation benchmark LawBench. LawBench has been meticulously crafted to have precise assessment of the LLMs’ legal capabilities from three cognitive levels: (1) Legal knowledge memorization: whether LLMs can memorize needed legal concepts, articles and facts; (2) Legal knowledge understanding: whether LLMs can comprehend entities, events and relationships within legal text; (3) Legal knowledge applying: whether LLMs can properly utilize their legal knowledge and make necessary reasoning steps to solve realistic legal tasks. LawBench contains 20 diverse tasks covering 5 task types: single-label classification (SLC), multi-label classification (MLC), regression, extraction and generation. We perform extensive evaluations of 51 LLMs on LawBench, including 20 multilingual LLMs, 22 Chinese-oriented LLMs and 9 legal specific LLMs. The results show that GPT-4 remains the best-performing LLM in the legal domain, surpassing the others by a significant margin. While fine-tuning LLMs on legal specific text brings certain improvements, we are still a long way from obtaining usable and reliable LLMs in legal tasks. All data, model predictions and evaluation code are released in https://github.com/open-compass/LawBench/. We hope this benchmark provides in-depth understanding of the LLMs’ domain-specified capabilities and speed up the development of LLMs in the legal domain.

arxiv情報

著者 Zhiwei Fei,Xiaoyu Shen,Dawei Zhu,Fengzhe Zhou,Zhuo Han,Songyang Zhang,Kai Chen,Zongwen Shen,Jidong Ge
発行日 2023-09-28 09:35:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク