LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain

要約

最近、変圧器アーキテクチャに関する驚異的な進歩により、法律 NLP 分野は目覚ましい成長を遂げています。
進歩を測定するには、綿密に精選された挑戦的なベンチマークが不可欠です。
ただし、ほとんどのベンチマークは英語のみであり、特に法律 NLP では、利用可能な多言語ベンチマークはまだありません。
さらに、多くのベンチマークは飽和状態にあり、最高のモデルは最高の人間を明らかに上回り、ほぼ完璧なスコアを達成しています。
私たちは法的な NLP 文献を調査し、24 言語をカバーする 11 のデータセットを選択し、LEXTREME を作成します。
公平な比較を行うために、データセットに基づくものと言語に基づく 2 つの合計スコアを提案します。
最良のベースライン (XLM-R 大) は、データセットの集計スコアと言語の集計スコアの両方が 61.3 を達成しています。
これは、LEXTREME が依然として非常に挑戦的であり、改善の余地が十分に残されていることを示しています。
研究者や実践者が使いやすいように、モデルの評価に必要なすべてのコードと、すべての実行を含む公開重みとバイアス プロジェクトとともに、LEXTREME を ハグフェイス でリリースします。

要約(オリジナル)

Lately, propelled by the phenomenal advances around the transformer architecture, the legal NLP field has enjoyed spectacular growth. To measure progress, well curated and challenging benchmarks are crucial. However, most benchmarks are English only and in legal NLP specifically there is no multilingual benchmark available yet. Additionally, many benchmarks are saturated, with the best models clearly outperforming the best humans and achieving near perfect scores. We survey the legal NLP literature and select 11 datasets covering 24 languages, creating LEXTREME. To provide a fair comparison, we propose two aggregate scores, one based on the datasets and one on the languages. The best baseline (XLM-R large) achieves both a dataset aggregate score a language aggregate score of 61.3. This indicates that LEXTREME is still very challenging and leaves ample room for improvement. To make it easy for researchers and practitioners to use, we release LEXTREME on huggingface together with all the code required to evaluate models and a public Weights and Biases project with all the runs.

arxiv情報

著者 Joel Niklaus,Veton Matoshi,Pooja Rani,Andrea Galassi,Matthias Stürmer,Ilias Chalkidis
発行日 2024-01-08 10:08:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.LG, I.2 パーマリンク