SAILER: Structure-aware Pre-trained Language Model for Legal Case Retrieval

要約

タイトル:法的事例検索のための構造に注意した事前学習言語モデル、SAILER

要約:

– テキスト検索は、知能的な法的システムにおいて核心的な役割を果たしている。
– 法的事例文書は典型的には長いテキストシーケンスであり、内在的な論理構造があるため、一般的な文書よりも高度な理解力が求められる。
– 現存する多くの言語モデルは、異なる構造間の長距離依存関係を理解するのが困難である。
– 法的領域における関連性は、重要な法的要素に敏感であり、微妙な違いが関連性の判断に大きな影響を与える。
– これらの問題を解決するために、本稿ではSAILERという新しい事前学習法的事例検索用構造に注意した言語モデルを提案する。
– SAILERは、法的事例文書に含まれる構造情報を完全に利用し、重要な法的要素により注意を払い、法的専門家が法的事例文書を参照する方法に近づける。
– SAILERは非対称エンコーダ・デコーダアーキテクチャを採用し、いくつかの異なる事前学習目的を統合することにより、タスク間に豊富な意味情報をエンコードする。
– SAILERには、法的注釈データがなくても、強固な識別能力がある。異なる請求に基づいた法的事例を正確に区別することができる。
– 公開されている法的ベンチマークでの広範な実験の結果、本手法は、従来の最先端手法よりも有意に高い検索性能を持つことが示された。

要約(オリジナル)

Legal case retrieval, which aims to find relevant cases for a query case, plays a core role in the intelligent legal system. Despite the success that pre-training has achieved in ad-hoc retrieval tasks, effective pre-training strategies for legal case retrieval remain to be explored. Compared with general documents, legal case documents are typically long text sequences with intrinsic logical structures. However, most existing language models have difficulty understanding the long-distance dependencies between different structures. Moreover, in contrast to the general retrieval, the relevance in the legal domain is sensitive to key legal elements. Even subtle differences in key legal elements can significantly affect the judgement of relevance. However, existing pre-trained language models designed for general purposes have not been equipped to handle legal elements. To address these issues, in this paper, we propose SAILER, a new Structure-Aware pre-traIned language model for LEgal case Retrieval. It is highlighted in the following three aspects: (1) SAILER fully utilizes the structural information contained in legal case documents and pays more attention to key legal elements, similar to how legal experts browse legal case documents. (2) SAILER employs an asymmetric encoder-decoder architecture to integrate several different pre-training objectives. In this way, rich semantic information across tasks is encoded into dense vectors. (3) SAILER has powerful discriminative ability, even without any legal annotation data. It can distinguish legal cases with different charges accurately. Extensive experiments over publicly available legal benchmarks demonstrate that our approach can significantly outperform previous state-of-the-art methods in legal case retrieval.

arxiv情報

著者 Haitao Li,Qingyao Ai,Jia Chen,Qian Dong,Yueyue Wu,Yiqun Liu,Chong Chen,Qi Tian
発行日 2023-04-22 10:47:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.IR パーマリンク