要約
最近、変圧器アーキテクチャに関する驚異的な進歩により、法律 NLP 分野は目覚ましい成長を遂げています。
進歩を測定するには、綿密に精選された挑戦的なベンチマークが不可欠です。
ただし、ほとんどのベンチマークは英語のみであり、特に法律 NLP では、利用可能な多言語ベンチマークはまだありません。
さらに、多くのベンチマークは飽和状態にあり、最高のモデルは最高の人間を明らかに上回り、ほぼ完璧なスコアを達成しています。
私たちは法的な NLP 文献を調査し、24 言語をカバーする 11 のデータセットを選択し、LEXTREME を作成します。
公平な比較を行うために、データセットに基づくものと言語に基づく 2 つの合計スコアを提案します。
最良のベースライン (XLM-R 大) は、データセットの集計スコアと言語の集計スコアの両方が 61.3 を達成しています。
これは、LEXTREME が依然として非常に挑戦的であり、改善の余地が十分に残されていることを示しています。
研究者や実践者が使いやすいように、モデルの評価に必要なすべてのコードと、すべての実行を含む公開重みとバイアス プロジェクトとともに、LEXTREME を ハグフェイス でリリースします。
要約(オリジナル)
Lately, propelled by the phenomenal advances around the transformer architecture, the legal NLP field has enjoyed spectacular growth. To measure progress, well curated and challenging benchmarks are crucial. However, most benchmarks are English only and in legal NLP specifically there is no multilingual benchmark available yet. Additionally, many benchmarks are saturated, with the best models clearly outperforming the best humans and achieving near perfect scores. We survey the legal NLP literature and select 11 datasets covering 24 languages, creating LEXTREME. To provide a fair comparison, we propose two aggregate scores, one based on the datasets and one on the languages. The best baseline (XLM-R large) achieves both a dataset aggregate score a language aggregate score of 61.3. This indicates that LEXTREME is still very challenging and leaves ample room for improvement. To make it easy for researchers and practitioners to use, we release LEXTREME on huggingface together with all the code required to evaluate models and a public Weights and Biases project with all the runs.
arxiv情報
著者 | Joel Niklaus,Veton Matoshi,Pooja Rani,Andrea Galassi,Matthias Stürmer,Ilias Chalkidis |
発行日 | 2024-01-08 10:08:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google