要約
法律条項の長さと複雑さ、専門家による注釈付きのデータセットの不足により、法文の読解は特に困難な作業となる可能性があります。
この課題に対処するために、当社は合併契約理解データセット (MAUD) を導入します。これは、米国法曹協会の 2021 年公開ターゲット取引ポイント調査に基づく、専門家の注釈付き読解データセットであり、39,000 を超える例と合計 47,000 を超える注釈が含まれています。
微調整された Transformer ベースラインは有望な結果を示し、モデルはほとんどの質問でランダムを上回るパフォーマンスを示しました。
ただし、質問の大部分については、まだ大幅な改善の余地があります。
MAUD は、専門家による注釈が付けられた唯一の合併契約データセットとして、法律専門家と NLP コミュニティの両方のベンチマークとして価値があります。
要約(オリジナル)
Reading comprehension of legal text can be a particularly challenging task due to the length and complexity of legal clauses and a shortage of expert-annotated datasets. To address this challenge, we introduce the Merger Agreement Understanding Dataset (MAUD), an expert-annotated reading comprehension dataset based on the American Bar Association’s 2021 Public Target Deal Points Study, with over 39,000 examples and over 47,000 total annotations. Our fine-tuned Transformer baselines show promising results, with models performing well above random on most questions. However, on a large subset of questions, there is still room for significant improvement. As the only expert-annotated merger agreement dataset, MAUD is valuable as a benchmark for both the legal profession and the NLP community.
arxiv情報
著者 | Steven H. Wang,Antoine Scardigli,Leonard Tang,Wei Chen,Dimitry Levkin,Anya Chen,Spencer Ball,Thomas Woodside,Oliver Zhang,Dan Hendrycks |
発行日 | 2023-11-24 14:24:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google