Pre-trained Language Models for the Legal Domain: A Case Study on Indian Law

要約

法律分野における NLP は、法律文書で事前トレーニングされた Transformer ベースの事前トレーニング済み言語モデル (PLM) の出現により、ますます成功を収めています。
ヨーロッパおよび米国の法的文書に基づいてトレーニングされた PLM は公開されています。
ただし、インドなどの他のドメイン (国) の法文には、多くの際立った特徴があります。
さまざまな国で法的 NLP 申請の量が急速に増加しているため、そのような LM を他の国の法文についても事前にトレーニングすることが必要になってきています。
この研究では、インドの法的領域における事前研修を調査することを試みます。
私たちは、インドの法律データに基づいて 2 つの人気のある法律 PLM、LegalBERT と CaseLawBERT を再トレーニング (事前トレーニングを継続) するとともに、インドの法律文書に基づいた語彙を使用してモデルをゼロからトレーニングします。
これらの PLM を、インドと非インド (EU、英国) の両方のデータセットに対して、3 つのベンチマーク法的 NLP タスク (事実からの法律の特定、裁判所の判決文書のセマンティック セグメンテーション、および裁判所の判決の予測) に適用します。
私たちのアプローチは、新しいドメイン (インドのテキスト) でのパフォーマンスを向上させるだけでなく、元のドメイン (ヨーロッパと英国のテキスト) よりもパフォーマンスを向上させることがわかります。
また、これらすべての異なる PLM を定性的に比較するための説明可能性実験も実施します。

要約(オリジナル)

NLP in the legal domain has seen increasing success with the emergence of Transformer-based Pre-trained Language Models (PLMs) pre-trained on legal text. PLMs trained over European and US legal text are available publicly; however, legal text from other domains (countries), such as India, have a lot of distinguishing characteristics. With the rapidly increasing volume of Legal NLP applications in various countries, it has become necessary to pre-train such LMs over legal text of other countries as well. In this work, we attempt to investigate pre-training in the Indian legal domain. We re-train (continue pre-training) two popular legal PLMs, LegalBERT and CaseLawBERT, on Indian legal data, as well as train a model from scratch with a vocabulary based on Indian legal text. We apply these PLMs over three benchmark legal NLP tasks — Legal Statute Identification from facts, Semantic Segmentation of Court Judgment Documents, and Court Appeal Judgment Prediction — over both Indian and non-Indian (EU, UK) datasets. We observe that our approach not only enhances performance on the new domain (Indian texts) but also over the original domain (European and UK texts). We also conduct explainability experiments for a qualitative comparison of all these different PLMs.

arxiv情報

著者 Shounak Paul,Arpan Mandal,Pawan Goyal,Saptarshi Ghosh
発行日 2023-05-15 10:02:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク