THUIR@COLIEE 2023: Incorporating Structural Knowledge into Pre-trained Language Models for Legal Case Retrieval

要約

現代のインテリジェントなリーガルシステムにおいて、判例検索技術は重要な役割を担っています。COLIEEは、毎年開催される有名な国際大会であり、最先端の法律文書検索モデルを実現することを目的としています。本論文では、COLIEE 2023における優勝チームTHUIRの取り組みを紹介する。具体的には、法的ケースの理解を深めるために、構造を意識した事前学習済み言語モデルを設計する。さらに、無関係なメッセージの影響を軽減するために、ヒューリスティックな前処理と後処理を提案する。最後に、異なる次元の特徴を統合するために、学習-順位法を採用する。実験結果は、我々の提案の優位性を示しています。公式の結果では、私たちの実行がすべての投稿の中で最高のパフォーマンスであることが示されています。我々の手法の実装は https://github.com/CSHaitao/THUIR-COLIEE2023 にあります。

要約(オリジナル)

Legal case retrieval techniques play an essential role in modern intelligent legal systems. As an annually well-known international competition, COLIEE is aiming to achieve the state-of-the-art retrieval model for legal texts. This paper summarizes the approach of the championship team THUIR in COLIEE 2023. To be specific, we design structure-aware pre-trained language models to enhance the understanding of legal cases. Furthermore, we propose heuristic pre-processing and post-processing approaches to reduce the influence of irrelevant messages. In the end, learning-to-rank methods are employed to merge features with different dimensions. Experimental results demonstrate the superiority of our proposal. Official results show that our run has the best performance among all submissions. The implementation of our method can be found at https://github.com/CSHaitao/THUIR-COLIEE2023.

arxiv情報

著者 Haitao Li,Weihang Su,Changyue Wang,Yueyue Wu,Qingyao Ai,Yiqun Liu
発行日 2023-05-11 14:08:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.IR パーマリンク