要約
法律専門家は、関連する判例、つまり過去の判例の引用に基づいて分析を作成する必要があります。
法律専門家がこのような文書を作成するのを支援するインテリジェント システムは大きな利点をもたらしますが、設計は困難です。
このようなシステムが有用であるためには、顕著な前例を見つけ、要約し、推論するのに役立つ必要があります。
このようなタスクのシステムを可能にするために、私たちは法律専門家と協力して、大規模なオープンソースの法的コーパスを、情報検索 (IR) と検索拡張生成 (RAG) という 2 つの重要なバックボーン タスクをサポートするデータセットに変換します。
このデータセット CLERC (判例法評価検索コーパス) は、(1) 特定の法的分析に対応する引用を見つけ、(2) これらの引用のテキストを編集する能力に関するモデルをトレーニングおよび評価するために構築されています。
前のコンテキスト)を推論の目標をサポートする説得力のある分析に変換します。
CLERC で最先端のモデルをベンチマークし、現在のアプローチが依然として困難であることを示しています。GPT-4o は最も高い ROUGE F スコアの分析を生成しますが、幻覚が最も多く、ゼロショット IR モデルは 1000 で 48.3% の再現率しか達成しません。
。
要約(オリジナル)
Legal professionals need to write analyses that rely on citations to relevant precedents, i.e., previous case decisions. Intelligent systems assisting legal professionals in writing such documents provide great benefits but are challenging to design. Such systems need to help locate, summarize, and reason over salient precedents in order to be useful. To enable systems for such tasks, we work with legal professionals to transform a large open-source legal corpus into a dataset supporting two important backbone tasks: information retrieval (IR) and retrieval-augmented generation (RAG). This dataset CLERC (Case Law Evaluation Retrieval Corpus), is constructed for training and evaluating models on their ability to (1) find corresponding citations for a given piece of legal analysis and to (2) compile the text of these citations (as well as previous context) into a cogent analysis that supports a reasoning goal. We benchmark state-of-the-art models on CLERC, showing that current approaches still struggle: GPT-4o generates analyses with the highest ROUGE F-scores but hallucinates the most, while zero-shot IR models only achieve 48.3% recall@1000.
arxiv情報
著者 | Abe Bohan Hou,Orion Weller,Guanghui Qin,Eugene Yang,Dawn Lawrie,Nils Holzenberger,Andrew Blair-Stanek,Benjamin Van Durme |
発行日 | 2024-06-27 15:55:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google