DALE: Generative Data Augmentation for Low-Resource Legal NLP

要約

我々は、低リソースの LEgal NLP のための新しく効果的な生成型データ拡張フレームワークである DALE を紹介します。
DALE は、法律文書の効果的なデータ拡張を生成する際に既存のフレームワークが引き起こす課題に対処します。法律言語は、特殊な語彙と複雑な意味論、形態論、および構文を備えているため、原文を単に言い換えるだけのデータ拡張からは恩恵を受けません。
これに対処するために、エンコーダ デコーダ言語モデルに基づいて構築された DALE は、選択的マスキングに基づく新しい教師なしテキストのノイズ除去目標に基づいて事前トレーニングされています。私たちのマスキング戦略は、テンプレート化された法的文書のドメイン固有の言語特性を利用して、連結されたスパンをマスクします。
文章。
これらのスパンのノイズを除去することは、DALE が法的な概念、原則、言語の使用法に関する知識を獲得するのに役立ちます。
その結果、新しいコンテキストで一貫性のある多様な拡張を生成する能力が開発されます。
最後に、DALE は条件付き生成を実行して、低リソースの法律 NLP タスク用の合成拡張を生成します。
6 つのタスクと 4 つの低リソース設定にわたる 13 のデータセットに対する DALE の有効性を実証します。
DALE は、LLM を含むすべてのベースラインを定性的および量的に上回っており、1% ~ 50% の改善が見られます。

要約(オリジナル)

We present DALE, a novel and effective generative Data Augmentation framework for low-resource LEgal NLP. DALE addresses the challenges existing frameworks pose in generating effective data augmentations of legal documents – legal language, with its specialized vocabulary and complex semantics, morphology, and syntax, does not benefit from data augmentations that merely rephrase the source sentence. To address this, DALE, built on an Encoder-Decoder Language Model, is pre-trained on a novel unsupervised text denoising objective based on selective masking – our masking strategy exploits the domain-specific language characteristics of templatized legal documents to mask collocated spans of text. Denoising these spans helps DALE acquire knowledge about legal concepts, principles, and language usage. Consequently, it develops the ability to generate coherent and diverse augmentations with novel contexts. Finally, DALE performs conditional generation to generate synthetic augmentations for low-resource Legal NLP tasks. We demonstrate the effectiveness of DALE on 13 datasets spanning 6 tasks and 4 low-resource settings. DALE outperforms all our baselines, including LLMs, qualitatively and quantitatively, with improvements of 1%-50%.

arxiv情報

著者 Sreyan Ghosh,Chandra Kiran Evuru,Sonal Kumar,S Ramaneswaran,S Sakshi,Utkarsh Tyagi,Dinesh Manocha
発行日 2023-10-24 12:50:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク