HLDC: Hindi Legal Documents Corpus

要約

インドを含む多くの人口の多い国は、相当数の未処理の訴訟を抱えている。
法的文書を処理し、法律実務家を増強できる自動システムの開発により、これを軽減できます。
しかし、そのようなデータ駆動型システムの開発に必要な高品質のコーパスが不足しています。
ヒンディー語などのリソースが少ない言語の場合、問題はさらに顕著になります。
このリソース ペーパーでは、90 万件を超えるヒンディー語の法的文書のコーパスであるヒンディー語法的文書コーパス (HLDC) を紹介します。
ドキュメントは整理され、下流のアプリケーションの開発を可能にするために構造化されます。
さらに、コーパスのユースケースとして、保釈予測のタスクを紹介します。
私たちは一連のモデルを実験し、同じためのマルチタスク学習 (MTL) ベースのモデルを提案します。
MTL モデルは、主なタスクとしての保釈予測とともに、補助タスクとして要約を使用します。
さまざまなモデルを使用した実験は、この分野でのさらなる研究の必要性を示しています。
この論文でコーパスとモデルの実装コードをリリースします: https://github.com/Exploration-Lab/HLDC

要約(オリジナル)

Many populous countries including India are burdened with a considerable backlog of legal cases. Development of automated systems that could process legal documents and augment legal practitioners can mitigate this. However, there is a dearth of high-quality corpora that is needed to develop such data-driven systems. The problem gets even more pronounced in the case of low resource languages such as Hindi. In this resource paper, we introduce the Hindi Legal Documents Corpus (HLDC), a corpus of more than 900K legal documents in Hindi. Documents are cleaned and structured to enable the development of downstream applications. Further, as a use-case for the corpus, we introduce the task of bail prediction. We experiment with a battery of models and propose a Multi-Task Learning (MTL) based model for the same. MTL models use summarization as an auxiliary task along with bail prediction as the main task. Experiments with different models are indicative of the need for further research in this area. We release the corpus and model implementation code with this paper: https://github.com/Exploration-Lab/HLDC

arxiv情報

著者 Arnav Kapoor,Mudit Dhawan,Anmol Goel,T. H. Arjun,Akshala Bhatnagar,Vibhu Agrawal,Amul Agrawal,Arnab Bhattacharya,Ponnurangam Kumaraguru,Ashutosh Modi
発行日 2024-05-24 11:07:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク