MAUD: An Expert-Annotated Legal NLP Dataset for Merger Agreement Understanding

要約

法律条項の長さと複雑さ、専門家による注釈付きのデータセットの不足により、法文の読解は特に困難な作業となる可能性があります。
この課題に対処するために、当社は合併契約理解データセット (MAUD) を導入します。これは、米国法曹協会の 2021 年公開ターゲット取引ポイント調査に基づく、専門家の注釈付き読解データセットであり、39,000 を超える例と合計 47,000 を超える注釈が含まれています。
微調整された Transformer ベースラインは有望な結果を示し、モデルはほとんどの質問でランダムを上回るパフォーマンスを示しました。
ただし、質問の大部分については、まだ大幅な改善の余地があります。
MAUD は、専門家による注釈が付けられた唯一の合併契約データセットとして、法律専門家と NLP コミュニティの両方のベンチマークとして価値があります。

要約(オリジナル)

Reading comprehension of legal text can be a particularly challenging task due to the length and complexity of legal clauses and a shortage of expert-annotated datasets. To address this challenge, we introduce the Merger Agreement Understanding Dataset (MAUD), an expert-annotated reading comprehension dataset based on the American Bar Association’s 2021 Public Target Deal Points Study, with over 39,000 examples and over 47,000 total annotations. Our fine-tuned Transformer baselines show promising results, with models performing well above random on most questions. However, on a large subset of questions, there is still room for significant improvement. As the only expert-annotated merger agreement dataset, MAUD is valuable as a benchmark for both the legal profession and the NLP community.

arxiv情報

著者 Steven H. Wang,Antoine Scardigli,Leonard Tang,Wei Chen,Dimitry Levkin,Anya Chen,Spencer Ball,Thomas Woodside,Oliver Zhang,Dan Hendrycks
発行日 2023-11-24 14:24:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク