ChatSchema: A pipeline of extracting structured information with Large Multimodal Models based on schema

要約

目的: この研究では、スキーマに基づく大規模マルチモーダル モデル (LMM) と光学式文字認識 (OCR) の組み合わせを使用して、医学論文レポートの非構造化データから情報を抽出および構造化するための効果的な方法である ChatSchema を紹介します。
事前定義されたスキーマを統合することで、LMM がスキーマ仕様に従って情報を直接抽出および標準化できるようになり、さらなるデータ入力が容易になる予定です。
方法: 私たちのアプローチには、レポートのシナリオを分類し、情報を構造化するための分類と抽出を含む 2 段階のプロセスが含まれます。
ChatSchema の有効性を検証するためにデータセットを確立して注釈を付け、精度、再現率、F1 スコア、精度のメトリクスを使用してキー抽出を評価しました。
キーの抽出に基づいて、値の抽出をさらに評価しました。
異なる入力モーダルと方法による構造化情報抽出の改善を説明するために、2 つの LMM でアブレーション研究を実施しました。
結果: 北京大学第一病院からの 100 件の医療レポートを分析し、2,945 個のキーと値のペアを含むグラウンド トゥルース データセットを確立しました。
GPT-4o と Gemini 1.5 Pro を使用して ChatSchema を評価したところ、GPT-4o の方が全体的なパフォーマンスが高いことがわかりました。
結果は次のとおりです。キー抽出の結果、キー精度は 98.6%、キー再現率は 98.5%、キー F1 スコアは 98.6% でした。
正確なキー抽出に基づいて値を抽出した結果、全体の精度は 97.2%、適合率は 95.8%、再現率は 95.8%、F1 スコアは 95.8% でした。
アブレーション研究では、ChatSchema がベースラインと比較して、キー値抽出の全体的な精度と全体的な F1 スコアが大幅に高く、それぞれ全体の精度が 26.9%、全体の F1 スコアが 27.4% 向上したことが実証されました。

要約(オリジナル)

Objective: This study introduces ChatSchema, an effective method for extracting and structuring information from unstructured data in medical paper reports using a combination of Large Multimodal Models (LMMs) and Optical Character Recognition (OCR) based on the schema. By integrating predefined schema, we intend to enable LMMs to directly extract and standardize information according to the schema specifications, facilitating further data entry. Method: Our approach involves a two-stage process, including classification and extraction for categorizing report scenarios and structuring information. We established and annotated a dataset to verify the effectiveness of ChatSchema, and evaluated key extraction using precision, recall, F1-score, and accuracy metrics. Based on key extraction, we further assessed value extraction. We conducted ablation studies on two LMMs to illustrate the improvement of structured information extraction with different input modals and methods. Result: We analyzed 100 medical reports from Peking University First Hospital and established a ground truth dataset with 2,945 key-value pairs. We evaluated ChatSchema using GPT-4o and Gemini 1.5 Pro and found a higher overall performance of GPT-4o. The results are as follows: For the result of key extraction, key-precision was 98.6%, key-recall was 98.5%, key-F1-score was 98.6%. For the result of value extraction based on correct key extraction, the overall accuracy was 97.2%, precision was 95.8%, recall was 95.8%, and F1-score was 95.8%. An ablation study demonstrated that ChatSchema achieved significantly higher overall accuracy and overall F1-score of key-value extraction, compared to the Baseline, with increases of 26.9% overall accuracy and 27.4% overall F1-score, respectively.

arxiv情報

著者 Fei Wang,Yuewen Zheng,Qin Li,Jingyi Wu,Pengfei Li,Luxia Zhang
発行日 2024-07-26 13:05:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク