One Law, Many Languages: Benchmarking Multilingual Legal Reasoning for Judicial Support

要約

大規模言語モデル (LLM) の最近の進歩により、多くの自然言語処理 (NLP) ベンチマークが飽和状態になり、LLM の機能を適切に評価するには、より困難なベンチマークの必要性が強調されています。
ただし、ドメイン固有の多言語ベンチマークは、開発に深い専門知識が必要なため、まれです。
それでも、ほとんどの公開モデルは主に英語のコーパスでトレーニングされている一方で、他の言語、特に実践的なドメイン固有の NLP タスクについては研究が不十分なままです。
この研究では、法律分野向けの新しい NLP ベンチマークを導入します。このベンチマークは、\emph{長い文書} (最大 50,000 トークン) の処理、\emph{ドメイン固有の知識} (法律文書に具体化されている) の使用という 5 つの主要な側面で LLM に挑戦します。
)、\emph{多言語}理解 (5 つの言語をカバー)、\emph{マルチタスク} (法的文書間の情報検索、法廷見解の生成、主要な判決の要約、引用の抽出、および 8 つの難しいテキスト分類タスクで構成される)、および \
emph{reasoning} (特に法廷ビュー生成を含むが、テキスト分類タスクも含む)。
私たちのベンチマークにはスイスの法制度の多様なデータセットが含まれており、基礎となる非英語の本質的に多言語の法制度の包括的な研究を可能にします。
データセットのサイズが大きい (一部には数十万の例が含まれる) にもかかわらず、既存の公開されている多言語モデルは、ドメイン内で大規模な事前トレーニングと微調整を行った後でも、ほとんどのタスクで困難を伴います。
すべてのリソース (ベンチマーク スイート、事前トレーニング済みモデル、コード) は、寛容なオープン CC BY-SA ライセンスの下で公開されています。

要約(オリジナル)

Recent strides in Large Language Models (LLMs) have saturated many Natural Language Processing (NLP) benchmarks, emphasizing the need for more challenging ones to properly assess LLM capabilities. However, domain-specific and multilingual benchmarks are rare because they require in-depth expertise to develop. Still, most public models are trained predominantly on English corpora, while other languages remain understudied, particularly for practical domain-specific NLP tasks. In this work, we introduce a novel NLP benchmark for the legal domain that challenges LLMs in five key dimensions: processing \emph{long documents} (up to 50K tokens), using \emph{domain-specific knowledge} (embodied in legal texts), \emph{multilingual} understanding (covering five languages), \emph{multitasking} (comprising legal document-to-document Information Retrieval, Court View Generation, Leading Decision Summarization, Citation Extraction, and eight challenging Text Classification tasks) and \emph{reasoning} (comprising especially Court View Generation, but also the Text Classification tasks). Our benchmark contains diverse datasets from the Swiss legal system, allowing for a comprehensive study of the underlying non-English, inherently multilingual legal system. Despite the large size of our datasets (some with hundreds of thousands of examples), existing publicly available multilingual models struggle with most tasks, even after extensive in-domain pre-training and fine-tuning. We publish all resources (benchmark suite, pre-trained models, code) under permissive open CC BY-SA licenses.

arxiv情報

著者 Ronja Stern,Vishvaksenan Rasiah,Veton Matoshi,Srinanda Brügger Bose,Matthias Stürmer,Ilias Chalkidis,Daniel E. Ho,Joel Niklaus
発行日 2024-08-21 10:36:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.LG, I.2 パーマリンク