STARD: A Chinese Statute Retrieval Dataset with Real Queries Issued by Non-professionals

要約

法令検索は、特定のクエリに関連する法令条項を見つけることを目的としています。
このプロセスは、法的アドバイス、自動化された司法判断、法的文書の作成など、幅広い法的アプリケーションの基礎となります。既存の法令検索ベンチマークは、司法試験や訴訟文書などのソースからの正式かつ専門的なクエリに焦点を当てており、そのため、非準拠の情報は無視されています。
– 一般の人々からの専門的な質問。多くの場合、正確な法律用語や参考資料が不足しています。
このギャップに対処するために、STAtute Retrieval Dataset (STARD) を導入します。これは、実際の法律相談から収集された 1,543 件の照会事例と 55,348 件の候補法定記事で構成される中国のデータセットです。
主に専門的な法的質問に焦点を当てた既存の法令検索データセットとは異なり、STARD は一般大衆からの実際の質問の複雑さと多様性を捕捉します。
さまざまな検索ベースラインの包括的な評価を通じて、既存の検索アプローチはすべて、専門家以外のユーザーが発行する実際のクエリには及ばないことが明らかになりました。
最良の方法では Recall@100 が 0.907 に達するだけであり、この分野でさらなる探索と追加の研究が必要であることが示唆されています。
すべてのコードとデータセットは、https://github.com/oneal2000/STARD/tree/main から入手できます。

要約(オリジナル)

Statute retrieval aims to find relevant statutory articles for specific queries. This process is the basis of a wide range of legal applications such as legal advice, automated judicial decisions, legal document drafting, etc. Existing statute retrieval benchmarks focus on formal and professional queries from sources like bar exams and legal case documents, thereby neglecting non-professional queries from the general public, which often lack precise legal terminology and references. To address this gap, we introduce the STAtute Retrieval Dataset (STARD), a Chinese dataset comprising 1,543 query cases collected from real-world legal consultations and 55,348 candidate statutory articles. Unlike existing statute retrieval datasets, which primarily focus on professional legal queries, STARD captures the complexity and diversity of real queries from the general public. Through a comprehensive evaluation of various retrieval baselines, we reveal that existing retrieval approaches all fall short of these real queries issued by non-professional users. The best method only achieves a Recall@100 of 0.907, suggesting the necessity for further exploration and additional research in this area. All the codes and datasets are available at: https://github.com/oneal2000/STARD/tree/main

arxiv情報

著者 Weihang Su,Yiran Hu,Anzhe Xie,Qingyao Ai,Zibing Que,Ning Zheng,Yun Liu,Weixing Shen,Yiqun Liu
発行日 2024-06-21 17:10:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク