要約
複雑で専門的な用語を特徴とする法的テキストは、言語モデルに大きな課題を提示します。
スペイン語などの過小評価されている言語をミックスに追加すると、さらに挑戦的になります。
XLM-Robertaのような事前に訓練されたモデルは、多言語のコーパスを処理する能力を示していますが、ドメイン固有のドキュメントでのパフォーマンスは採用されていないままです。
このホワイトペーパーでは、XLM-Roberta-Largeに基づく法的言語モデルであるMELの開発と評価を紹介します。これは、BOE(Oficial del EstadoのBolet \ ‘、スペイン語の法学報告書)および議会のテキストなどの法的文書に微調整されています。
。
データ収集、処理、トレーニング、および評価プロセスについて詳しく説明します。
評価ベンチマークは、合法的なスペイン語の理解におけるベースラインモデルよりも大幅な改善を示しています。
また、モデルのアプリケーションを新しい法的テキストに示すケーススタディを提示し、さまざまなNLPタスクで最高の結果を実行する可能性を強調しています。
要約(オリジナル)
Legal texts, characterized by complex and specialized terminology, present a significant challenge for Language Models. Adding an underrepresented language, such as Spanish, to the mix makes it even more challenging. While pre-trained models like XLM-RoBERTa have shown capabilities in handling multilingual corpora, their performance on domain specific documents remains underexplored. This paper presents the development and evaluation of MEL, a legal language model based on XLM-RoBERTa-large, fine-tuned on legal documents such as BOE (Bolet\’in Oficial del Estado, the Spanish oficial report of laws) and congress texts. We detail the data collection, processing, training, and evaluation processes. Evaluation benchmarks show a significant improvement over baseline models in understanding the legal Spanish language. We also present case studies demonstrating the model’s application to new legal texts, highlighting its potential to perform top results over different NLP tasks.
arxiv情報
著者 | David Betancur Sánchez,Nuria Aldama García,Álvaro Barbero Jiménez,Marta Guerrero Nieto,Patricia Marsà Morales,Nicolás Serrano Salas,Carlos García Hernán,Pablo Haya Coll,Elena Montiel Ponsoda,Pablo Calleja Ibáñez |
発行日 | 2025-01-27 12:50:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google