要約
XNATは、研究プロジェクトのためにDICOM画像の大規模なデータベースをキュレーションするためにアカデミアで広く使用されているサーバーベースのデータ管理プラットフォームです。
XNATの「エコシステム」の独立したツールとともに、XNATの施設を使用したDICOMデータの偏見ワークフローを詳細に説明します。
私たちは、以前の経験に基づいて、明確化が必要になる可能性のあるさまざまなコンテキストをリストします。
医療イメージ脱同意ベンチマーク(MIDI-B)の課題への参加の出発点は、既存のローカル方法論のセットであり、チャレンジの検証フェーズで採用されました。
テストフェーズでの結果は97.91 \%で、主にチャレンジのシナプスプラットフォームとの方法論の秘術的な技術的互換性のために、私たちの仲間よりかなり低く、検証フェーズ中にフィードバックを受け取ることができませんでした。
提出後、主催者からの追加の矛盾レポート、およびMIDI-Bの連続ベンチマーク施設を介して、このスコアを99.61 \%に大幅に改善することができました。
完全にルールベースのアプローチは、テストコーパス内のすべての名前関連情報を削除できることが示されましたが、アドレスデータを完全に扱う障害を示しました。
公開された機械学習モデルを使用してアドレスを削除する最初の実験は部分的に成功しましたが、モデルが他のタイプのフリーテキストデータで「過剰攻撃的」であることが示され、パフォーマンスが99.54 \%にわずかに分解されました。
したがって、将来の開発は、住所認識能力の改善に焦点を当てますが、画像ピクセルに焼き付けられた識別可能なデータのより良い削除にも焦点を当てます。
「回答キー」に関連するいくつかの技術的側面は、チャレンジオーガナイザーとまだ議論されていますが、MIDI-Bテストコーパスの本物の識別障害の割合は現在0.19 \%であると推定しています。
(ARXIV提出のためにオリジナルから要約)
要約(オリジナル)
XNAT is a server-based data management platform widely used in academia for curating large databases of DICOM images for research projects. We describe in detail a deidentification workflow for DICOM data using facilities in XNAT, together with independent tools in the XNAT ‘ecosystem’. We list different contexts in which deidentification might be needed, based on our prior experience. The starting point for participation in the Medical Image De-Identification Benchmark (MIDI-B) challenge was a set of pre-existing local methodologies, which were adapted during the validation phase of the challenge. Our result in the test phase was 97.91\%, considerably lower than our peers, due largely to an arcane technical incompatibility of our methodology with the challenge’s Synapse platform, which prevented us receiving feedback during the validation phase. Post-submission, additional discrepancy reports from the organisers and via the MIDI-B Continuous Benchmarking facility, enabled us to improve this score significantly to 99.61\%. An entirely rule-based approach was shown to be capable of removing all name-related information in the test corpus, but exhibited failures in dealing fully with address data. Initial experiments using published machine-learning models to remove addresses were partially successful but showed the models to be ‘over-aggressive’ on other types of free-text data, leading to a slight overall degradation in performance to 99.54\%. Future development will therefore focus on improving address-recognition capabilities, but also on better removal of identifiable data burned into the image pixels. Several technical aspects relating to the ‘answer key’ are still under discussion with the challenge organisers, but we estimate that our percentage of genuine deidentification failures on the MIDI-B test corpus currently stands at 0.19\%. (Abridged from original for arXiv submission)
arxiv情報
著者 | Alex Michie,Simon J Doran |
発行日 | 2025-04-29 11:33:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google