要約
法的文書からの交通事故に関する情報の抽出は、保険会社の費用を定量化するために重要です。
身体的および/または心理的障害の割合や関与する補償額などのエンティティを抽出することは、裁判所の決定における微妙な議論と推論のために、専門家にとっても挑戦的なプロセスです。
2段階の手順が提案されています。まず、最も関連性の高いセグメントを識別するドキュメントをセグメント化し、エンティティを抽出します。
テキストセグメンテーションでは、2つの方法論が比較されます。正規表現に基づく古典的な方法と、ドキュメントをn-tokensのブロックに分割する2番目のアプローチで、セマンティック検索の多言語モデルを使用してベクトル化されます(テキスト巻き取り-ADA-L12-V2)。
その後、大規模な言語モデル(LLAMA-2 7B、70B、LLAMA-3 8B、およびGPT-4ターボ)が、選択したエンティティ抽出のために選択したセグメントにプロンプトとともに適用されます。
Llamaモデルの場合、LORAを使用して微調整が実行されます。
Llama-2 7bは、温度がゼロであっても、抽出にかなりの数の幻覚を示しています。これは、名前付きエンティティ抽出の重要な競合点です。
この作業は、これらの幻覚がモデルを微調整した後に大幅に減少することを示しています。
セグメントのベクトル化とその後のLLMの使用に基づく方法論のパフォーマンスは、39.5%の精度を達成する古典的な方法を大幅に上回ります。
オープンソースモデルの中で、Finetuningを備えたLlama-2 70bは、ベースバージョン61.7%を上回る最高の精度79.4%を達成します。
特に、ベースのLlama-3 8Bモデルは、すでにFinetuned Llama-2 70Bモデルに匹敵し、76.6%を達成し、モデル開発の急速な進歩を強調しています。
一方、GPT-4ターボは86.1%で最高の精度を達成します。
要約(オリジナル)
The extraction of information about traffic accidents from legal documents is crucial for quantifying insurance company costs. Extracting entities such as percentages of physical and/or psychological disability and the involved compensation amounts is a challenging process, even for experts, due to the subtle arguments and reasoning in the court decision. A two-step procedure is proposed: first, segmenting the document identifying the most relevant segments, and then extracting the entities. For text segmentation, two methodologies are compared: a classic method based on regular expressions and a second approach that divides the document into blocks of n-tokens, which are then vectorized using multilingual models for semantic searches (text-embedding-ada-002/MiniLM-L12-v2 ). Subsequently, large language models (LLaMA-2 7b, 70b, LLaMA-3 8b, and GPT-4 Turbo) are applied with prompting to the selected segments for entity extraction. For the LLaMA models, fine-tuning is performed using LoRA. LLaMA-2 7b, even with zero temperature, shows a significant number of hallucinations in extractions which are an important contention point for named entity extraction. This work shows that these hallucinations are substantially reduced after finetuning the model. The performance of the methodology based on segment vectorization and subsequent use of LLMs significantly surpasses the classic method which achieves an accuracy of 39.5%. Among open-source models, LLaMA-2 70B with finetuning achieves the highest accuracy 79.4%, surpassing its base version 61.7%. Notably, the base LLaMA-3 8B model already performs comparably to the finetuned LLaMA-2 70B model, achieving 76.6%, highlighting the rapid progress in model development. Meanwhile, GPT-4 Turbo achieves the highest accuracy at 86.1%.
arxiv情報
著者 | Francisco Vargas,Alejandro González Coene,Gaston Escalante,Exequiel Lobón,Manuel Pulido |
発行日 | 2025-06-10 14:17:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google