The Cambridge Law Corpus: A Corpus for Legal AI Research

要約

法律 AI 研究用のコーパスである Cambridge Law Corpus (CLC) を紹介します。
英国の 250,000 件を超える訴訟で構成されています。
ほとんどの症例は 21 世紀のものですが、コーパスには 16 世紀まで古い症例も含まれています。
このペーパーでは、生のテキストとメタデータを含むコーパスの最初のリリースを紹介します。
コーパスと併せて、法律専門家による 638 件の事件の結果に関する注釈を提供します。
注釈付きデータを使用して、GPT-3、GPT-4、および RoBERTa モデルを使用して症例結果の抽出をトレーニングおよび評価し、ベンチマークを提供しました。
この素材の潜在的にデリケートな性質に対処するために、広範な法的および倫理的な議論が含まれています。
その結果、コーパスは特定の制限の下で研究目的でのみ公開されます。

要約(オリジナル)

We introduce the Cambridge Law Corpus (CLC), a corpus for legal AI research. It consists of over 250 000 court cases from the UK. Most cases are from the 21st century, but the corpus includes cases as old as the 16th century. This paper presents the first release of the corpus, containing the raw text and meta-data. Together with the corpus, we provide annotations on case outcomes for 638 cases, done by legal experts. Using our annotated data, we have trained and evaluated case outcome extraction with GPT-3, GPT-4 and RoBERTa models to provide benchmarks. We include an extensive legal and ethical discussion to address the potentially sensitive nature of this material. As a consequence, the corpus will only be released for research purposes under certain restrictions.

arxiv情報

著者 Andreas Östling,Holli Sargeant,Huiyuan Xie,Ludwig Bull,Alexander Terenin,Leif Jonsson,Måns Magnusson,Felix Steffek
発行日 2023-09-21 17:24:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, stat.AP パーマリンク