Large Language Models for Judicial Entity Extraction: A Comparative Study

要約

ドメイン固有エンティティ認識は、法的文脈において非常に重要であり、特に判例文書内の質問応答システム、テキスト要約、機械翻訳、感情分析、情報検索などのさまざまなアプリケーションをサポートする基本的なタスクとして機能します。
最近の進歩により、自然言語処理タスクにおける大規模言語モデルの有効性が強調され、臨床文書や財務文書などの特殊なテキストからドメイン固有の事実 (エンティティ) を正確に検出して分類する機能が実証されました。
この研究では、判例文書内のドメイン固有のエンティティ (裁判所、申立人、裁判官、弁護士、被告人、FIR 番号など) を識別する際の大規模言語モデルの適用を調査し、ドメイン固有の言語を処理する能力に特に焦点を当てています。
複雑さと状況の変化。
この研究では、インドの司法文書に合わせた裁判事実の抽出という観点で、大規模言語モデル メタ AI 3、Mistral、Gemma などの最先端の大規模言語モデル アーキテクチャのパフォーマンスを評価しています。
Mistral と Gemma が最高性能のモデルとして浮上し、正確なエンティティ識別に重要なバランスの取れた精度とリコールを示しました。
これらの調査結果は、司法文書における大規模言語モデルの価値を確認し、詳細な調査に適した正確で組織化されたデータ出力を生成することにより、大規模言語モデルが科学研究をどのように促進および迅速化できるかを示しています。

要約(オリジナル)

Domain-specific Entity Recognition holds significant importance in legal contexts, serving as a fundamental task that supports various applications such as question-answering systems, text summarization, machine translation, sentiment analysis, and information retrieval specifically within case law documents. Recent advancements have highlighted the efficacy of Large Language Models in natural language processing tasks, demonstrating their capability to accurately detect and classify domain-specific facts (entities) from specialized texts like clinical and financial documents. This research investigates the application of Large Language Models in identifying domain-specific entities (e.g., courts, petitioner, judge, lawyer, respondents, FIR nos.) within case law documents, with a specific focus on their aptitude for handling domain-specific language complexity and contextual variations. The study evaluates the performance of state-of-the-art Large Language Model architectures, including Large Language Model Meta AI 3, Mistral, and Gemma, in the context of extracting judicial facts tailored to Indian judicial texts. Mistral and Gemma emerged as the top-performing models, showcasing balanced precision and recall crucial for accurate entity identification. These findings confirm the value of Large Language Models in judicial documents and demonstrate how they can facilitate and quicken scientific research by producing precise, organised data outputs that are appropriate for in-depth examination.

arxiv情報

著者 Atin Sakkeer Hussain,Anu Thomas
発行日 2024-07-08 09:49:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.1 パーマリンク