Understand Legal Documents with Contextualized Large Language Models

要約

インドなどの人口の多い国では係争中の訴訟件数が増加しており、大きな問題となっている。
法的文書を処理して理解するための効果的な技術を開発することは、この問題の解決に非常に役立ちます。
この論文では、SemEval-2023 タスク 6: 法的文章の理解 (Modi et al., 2023) のためのシステムを紹介します。
具体的には、まず、文内および文間の両方のレベルで包括的なコンテキスト情報を考慮してレトリックの役割を予測する Legal-BERT-HSLN モデルを開発し (サブタスク A)、次に、法的コンテキスト化され、法的コンテキスト化された Legal-LUKE モデルをトレーニングします。
エンティティ認識、法人を認識します (サブタスク B)。
私たちの評価は、私たちの設計したモデルがベースラインよりも正確であることを示しています。たとえば、サブタスク B の F1 スコアが最大 15.0% 向上しています。タスクのリーダーボードで顕著なパフォーマンス (たとえば、0.834 マイクロ F1 スコア) を達成し、第 5 位にランクされました。
サブタスク A の 27 チーム中。

要約(オリジナル)

The growth of pending legal cases in populous countries, such as India, has become a major issue. Developing effective techniques to process and understand legal documents is extremely useful in resolving this problem. In this paper, we present our systems for SemEval-2023 Task 6: understanding legal texts (Modi et al., 2023). Specifically, we first develop the Legal-BERT-HSLN model that considers the comprehensive context information in both intra- and inter-sentence levels to predict rhetorical roles (subtask A) and then train a Legal-LUKE model, which is legal-contextualized and entity-aware, to recognize legal entities (subtask B). Our evaluations demonstrate that our designed models are more accurate than baselines, e.g., with an up to 15.0% better F1 score in subtask B. We achieved notable performance in the task leaderboard, e.g., 0.834 micro F1 score, and ranked No.5 out of 27 teams in subtask A.

arxiv情報

著者 Xin Jin,Yuchen Wang
発行日 2023-07-19 05:30:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク