LeCaRDv2: A Large-Scale Chinese Legal Case Retrieval Dataset

要約

インテリジェントな法制度の重要な要素として、訴訟の検索は司法の正義と公平性を確保する上で重要な役割を果たします。
しかし、中国の法制度における訴訟検索技術の開発は、既存のデータセットの 3 つの問題、つまりデータ サイズの制限、法的関連性の狭い定義、データ サンプリングで使用される単純な候補者プール戦略によって制限されています。
これらの問題を軽減するために、大規模な訴訟検索データセット (バージョン 2) である LeCaRDv2 を導入します。
これは、430 万件の刑事事件文書から抽出された 800 件のクエリと 55,192 件の候補者で構成されています。
私たちの知る限り、LeCaRDv2 は中国最大の訴訟検索データセットの 1 つであり、刑事告訴を広範囲にカバーしています。
さらに、特徴付け、ペナルティ、手順という 3 つの重要な側面を考慮することで、既存の関連性基準を強化します。
この包括的な基準によりデータセットが充実し、より全体的な視点が得られる可能性があります。
さらに、クエリ ケースごとに潜在的な候補を効果的に特定する 2 レベルの候補セット プーリング戦略を提案します。
データセット内のすべての事件には、刑法を専門とする複数の法律専門家によって注釈が付けられていることに注意することが重要です。
彼らの専門知識により、注釈の正確性と信頼性が保証されます。
私たちは LeCaRDv2 でいくつかの最先端の検索モデルを評価し、訴訟事件の検索にはまだ大きな改善の余地があることを実証しています。
LeCaRDv2 の詳細は、匿名 Web サイト https://github.com/anonymous1113243/LeCaRDv2 でご覧いただけます。

要約(オリジナル)

As an important component of intelligent legal systems, legal case retrieval plays a critical role in ensuring judicial justice and fairness. However, the development of legal case retrieval technologies in the Chinese legal system is restricted by three problems in existing datasets: limited data size, narrow definitions of legal relevance, and naive candidate pooling strategies used in data sampling. To alleviate these issues, we introduce LeCaRDv2, a large-scale Legal Case Retrieval Dataset (version 2). It consists of 800 queries and 55,192 candidates extracted from 4.3 million criminal case documents. To the best of our knowledge, LeCaRDv2 is one of the largest Chinese legal case retrieval datasets, providing extensive coverage of criminal charges. Additionally, we enrich the existing relevance criteria by considering three key aspects: characterization, penalty, procedure. This comprehensive criteria enriches the dataset and may provides a more holistic perspective. Furthermore, we propose a two-level candidate set pooling strategy that effectively identify potential candidates for each query case. It’s important to note that all cases in the dataset have been annotated by multiple legal experts specializing in criminal law. Their expertise ensures the accuracy and reliability of the annotations. We evaluate several state-of-the-art retrieval models at LeCaRDv2, demonstrating that there is still significant room for improvement in legal case retrieval. The details of LeCaRDv2 can be found at the anonymous website https://github.com/anonymous1113243/LeCaRDv2.

arxiv情報

著者 Haitao Li,Yunqiu Shao,Yueyue Wu,Qingyao Ai,Yixiao Ma,Yiqun Liu
発行日 2023-10-26 17:32:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク