The CLC-UKET Dataset: Benchmarking Case Outcome Prediction for the UK Employment Tribunal


この論文は、英国雇用裁判所 (UKET) における事件の結果を予測するためのベンチマークを開発することにより、技術革新と司法へのアクセスの交差点を探ります。
大規模な手動アノテーションの課題に対処するために、この研究では自動アノテーションに大規模言語モデル (LLM) を採用し、その結果 CLC-UKET データセットが作成されました。
データセットは、約 19,000 件の UKET ケースとそのメタデータで構成されています。
CLC-UKET データを利用して、UKET におけるマルチクラスの症例転帰予測タスクを検討します。
ベースライン モデルの経験的結果は、微調整された変圧器モデルが UKET 予測タスクにおいてゼロショット LLM および少数ショット LLM よりも優れていることを示しています。
ゼロショット LLM のパフォーマンスは、タスク関連の情報を少数ショットの例に統合することで強化できます。
私たちは、CLC-UKET データセットが、人間による注釈や経験的調査結果とともに、雇用関連の紛争解決の貴重なベンチマークとして機能することを願っています。


This paper explores the intersection of technological innovation and access to justice by developing a benchmark for predicting case outcomes in the UK Employment Tribunal (UKET). To address the challenge of extensive manual annotation, the study employs a large language model (LLM) for automatic annotation, resulting in the creation of the CLC-UKET dataset. The dataset consists of approximately 19,000 UKET cases and their metadata. Comprehensive legal annotations cover facts, claims, precedent references, statutory references, case outcomes, reasons and jurisdiction codes. Facilitated by the CLC-UKET data, we examine a multi-class case outcome prediction task in the UKET. Human predictions are collected to establish a performance reference for model comparison. Empirical results from baseline models indicate that finetuned transformer models outperform zero-shot and few-shot LLMs on the UKET prediction task. The performance of zero-shot LLMs can be enhanced by integrating task-related information into few-shot examples. We hope that the CLC-UKET dataset, along with human annotations and empirical findings, can serve as a valuable benchmark for employment-related dispute resolution.


著者 Huiyuan Xie,Felix Steffek,Joana Ribeiro de Faria,Christine Carter,Jonathan Rutherford
発行日 2024-09-12 14:51:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL パーマリンク