要約
法律分野のNLPは、法律文書で事前に訓練されたTransformerベースの事前訓練言語モデル(PLM)の出現によって、ますます成功を収めています。欧米の法律文書で訓練されたPLMは公開されていますが、インドなど他のドメイン(国)の法律文書は多くの特徴的な特性を持っています。各国の法律NLPアプリケーションは急速に増加しており、他国の法律テキストに対してもLMを事前学習させることが必要になってきている。本研究では、インドの法律領域における事前学習の検討を試みる。我々は、2つの一般的な法律PLMであるLegalBERTとCaseLawBERTをインドの法律データで再トレーニング(事前トレーニングを継続)し、また、インドの法律テキストに基づいた語彙を持つモデルをゼロからトレーニングする。これらのPLMを、インドとインド以外の国(EU、イギリス)のデータセットで、3つのベンチマーク法NLPタスク(事実からの法令識別、判決文のセマンティックセグメンテーション、控訴審判決予測)に適用した。本アプローチは、新しいドメイン(インドのテキスト)だけでなく、元のドメイン(ヨーロッパとイギリスのテキスト)でもパフォーマンスを向上させることが確認された。また、これらの異なるPLMの質的比較のために、説明可能性実験も行った。
要約(オリジナル)
NLP in the legal domain has seen increasing success with the emergence of Transformer-based Pre-trained Language Models (PLMs) pre-trained on legal text. PLMs trained over European and US legal text are available publicly; however, legal text from other domains (countries), such as India, have a lot of distinguishing characteristics. With the rapidly increasing volume of Legal NLP applications in various countries, it has become necessary to pre-train such LMs over legal text of other countries as well. In this work, we attempt to investigate pre-training in the Indian legal domain. We re-train (continue pre-training) two popular legal PLMs, LegalBERT and CaseLawBERT, on Indian legal data, as well as train a model from scratch with a vocabulary based on Indian legal text. We apply these PLMs over three benchmark legal NLP tasks — Legal Statute Identification from facts, Semantic Segmentation of Court Judgment Documents, and Court Appeal Judgment Prediction — over both Indian and non-Indian (EU, UK) datasets. We observe that our approach not only enhances performance on the new domain (Indian texts) but also over the original domain (European and UK texts). We also conduct explainability experiments for a qualitative comparison of all these different PLMs.
arxiv情報
著者 | Shounak Paul,Arpan Mandal,Pawan Goyal,Saptarshi Ghosh |
発行日 | 2023-05-11 08:01:12+00:00 |
arxivサイト | arxiv_id(pdf) |