Exploring AI-based System Design for Pixel-level Protected Health Information Detection in Medical Images

要約

医療画像の識別は、研究および臨床環境でのデータ共有中にプライバシーを確​​保するための重要なステップです。
このプロセスの最初のステップでは、保護された健康情報(PHI)の検出が含まれます。これは、画像メタデータにあるか、画像ピクセル内に刻印されています。
このようなシステムの重要性にもかかわらず、既存のAIベースのソリューションの評価は限られており、信頼できる堅牢なツールの開発に対する障壁を生み出しています。
この研究では、テキスト検出、テキスト抽出、テキスト分析の3つの重要なコンポーネントで構成されるPHI検出のためのAIベースのパイプラインを提示します。
これらのコンポーネントに対応するさまざまなセットアップにわたって、3つのモデル、Yolov11、Easyocr、およびGPT-4Oのベンチマークを施し、精度、リコール、F1スコア、および精度に基づいてパフォーマンスを評価します。
すべてのセットアップは、すべてのメトリックが0.9を超える優れたPHI検出を示しています。
テキストのローカリゼーションのためのYolov11と抽出および分析のためのGPT-4Oの組み合わせにより、最良の結果が得られます。
ただし、このセットアップは、GPT-4Oのトークン生成により、より高いコストが発生します。
逆に、GPT-4Oのみに依存するエンドツーエンドのパイプラインは、パフォーマンスが低いことを示していますが、複雑なタスクのマルチモーダルモデルの可能性を強調しています。
専用のオブジェクト検出モデルを微調整し、組み込みのOCRツールを利用して、最適なパフォーマンスと費用対効果を実現することをお勧めします。
さらに、GPT-4Oなどの言語モデルを活用すると、テキストコンテンツの徹底的かつ柔軟な分析が促進されます。

要約(オリジナル)

De-identification of medical images is a critical step to ensure privacy during data sharing in research and clinical settings. The initial step in this process involves detecting Protected Health Information (PHI), which can be found in image metadata or imprinted within image pixels. Despite the importance of such systems, there has been limited evaluation of existing AI-based solutions, creating barriers to the development of reliable and robust tools. In this study, we present an AI-based pipeline for PHI detection, comprising three key components: text detection, text extraction, and text analysis. We benchmark three models, YOLOv11, EasyOCR, and GPT-4o, across different setups corresponding to these components, evaluating the performance based on precision, recall, F1 score, and accuracy. All setups demonstrate excellent PHI detection, with all metrics exceeding 0.9. The combination of YOLOv11 for text localization and GPT-4o for extraction and analysis yields the best results. However, this setup incurs higher costs due to GPT-4o’s token generation. Conversely, an end-to-end pipeline that relies solely on GPT-4o shows lower performance but highlights the potential of multimodal models for complex tasks. We recommend fine-tuning a dedicated object detection model and utilizing built-in OCR tools to achieve optimal performance and cost-effectiveness. Additionally, leveraging language models such as GPT-4o can facilitate thorough and flexible analysis of text content.

arxiv情報

著者 Tuan Truong,Ivo M. Baltruschat,Mark Klemens,Grit Werner,Matthias Lenga
発行日 2025-04-29 12:35:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク