要約
自然言語加工(NLP)の法的コーパスは、データのアクセシビリティと法的専門知識の利用可能性という2つの主な理由により、スペイン語のような言語の貴重で希少なリソースです。
INESDATA 2024は、Universidad Polit \ ‘Ecnica de Madrid(UPM)が率い、Instituto de Ingenier \’ Ia del Conocimiento(IIC)によって開発された欧州連合資金によるプロジェクトです。
スペイン語の法的/管理ドメインに。
この論文の目標は、Inesdata 2024の枠組み内で開発された契約情報抽出コーパスである法的スペイン契約条項(3cel)のコーパスを提示することです。
契約の理解とレビューのための重要な情報を特定します。
要約(オリジナル)
Legal corpora for Natural Language Processing (NLP) are valuable and scarce resources in languages like Spanish due to two main reasons: data accessibility and legal expert knowledge availability. INESData 2024 is a European Union funded project lead by the Universidad Polit\’ecnica de Madrid (UPM) and developed by Instituto de Ingenier\’ia del Conocimiento (IIC) to create a series of state-of-the-art NLP resources applied to the legal/administrative domain in Spanish. The goal of this paper is to present the Corpus of Legal Spanish Contract Clauses (3CEL), which is a contract information extraction corpus developed within the framework of INESData 2024. 3CEL contains 373 manually annotated tenders using 19 defined categories (4 782 total tags) that identify key information for contract understanding and reviewing.
arxiv情報
著者 | Nuria Aldama García,Patricia Marsà Morales,David Betancur Sánchez,Álvaro Barbero Jiménez,Marta Guerrero Nieto,Pablo Haya Coll,Patricia Martín Chozas,Elena Montiel Ponsoda |
発行日 | 2025-01-27 12:20:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google