LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development

要約

本研究では、法的指向の事前学習済み言語モデル(PLM)の性能について詳細な分析を行う。PLMの本来の目的、獲得した知識、法的言語理解能力の相互作用を調べ、それぞれを上流、探査、下流の性能と定義する。また、モデルのサイズだけでなく、使用する事前学習コーパスも本研究の重要な側面であると考える。そのため、多国籍英語法律コーパス(LeXFiles)と法律知識プロービングベンチマーク(LegalLAMA)を公開し、法律指向のPLMの学習と詳細分析を容易にします。LeXFilesで学習させた2つの新しい法的PLMをリリースし、LegalLAMAとLexGLUEで他のPLMと比較評価しました。その結果、プロービング性能は、関連する法的トピックの上流性能と強い相関があることがわかりました。一方、下流のパフォーマンスは、主にモデルのサイズと、上流とプロービングのパフォーマンスから推定できる事前の法律知識によって左右されます。これらの結果から、ドメインに特化したPLMの開発を目指す人にとって、両次元が重要であると結論づけることができる。

要約(オリジナル)

In this work, we conduct a detailed analysis on the performance of legal-oriented pre-trained language models (PLMs). We examine the interplay between their original objective, acquired knowledge, and legal language understanding capacities which we define as the upstream, probing, and downstream performance, respectively. We consider not only the models’ size but also the pre-training corpora used as important dimensions in our study. To this end, we release a multinational English legal corpus (LeXFiles) and a legal knowledge probing benchmark (LegalLAMA) to facilitate training and detailed analysis of legal-oriented PLMs. We release two new legal PLMs trained on LeXFiles and evaluate them alongside others on LegalLAMA and LexGLUE. We find that probing performance strongly correlates with upstream performance in related legal topics. On the other hand, downstream performance is mainly driven by the model’s size and prior legal knowledge which can be estimated by upstream and probing performance. Based on these findings, we can conclude that both dimensions are important for those seeking the development of domain-specific PLMs.

arxiv情報

著者 Ilias Chalkidis,Nicolas Garneau,Catalina Goanta,Daniel Martin Katz,Anders Søgaard
発行日 2023-05-12 14:21:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク