要約
タイトル:Pylogikを使用した医療画像の非識別化、クリーニング、圧縮
要約:
– PylogikというPythonフレームワークのライブラリを提案。
– 大量のデータや機械学習を利用する際、データはクリーニングや非識別化する必要がある。
– 多施設共同研究で、画像メタデータに保護された健康情報(PHI)が含まれる場合、データ共有と調和を取ることが特に難しい。
– PyLogikは、PHIが直接画像に含まれることがよくある超音波画像のために開発された。PyLogikは、画像ボリュームをテキスト検出/抽出、フィルタリング、しきい値処理、モルフォロジー、輪郭比較の一連のプロセスを通じて処理する。
– この方法により、画像は非識別化され、ファイルサイズが縮小され、機械学習やデータ共有に適した画像ボリュームになる。
– エコー検査の50枚の心臓超音波画像をPyLogikで処理し、専門家によるマニュアル解析と比較した。2つのアプローチのDice係数は0.976の平均値を達成した。
– 次に、アルゴリズムで圧縮された情報の圧縮度合いを調べるための調査が行われた。処理後のデータは、平均で約72%小さくなった。
– PyLogikは、データクリーニングと非識別化、ROIの決定、ファイル圧縮に適した方法であり、超音波データの効率的な保管、使用、共有を促進する。
– 他の医療画像データタイプでも使用可能なパイプラインのバリアントも作成されている。
要約(オリジナル)
Leveraging medical record information in the era of big data and machine learning comes with the caveat that data must be cleaned and de-identified. Facilitating data sharing and harmonization for multi-center collaborations are particularly difficult when protected health information (PHI) is contained or embedded in image meta-data. We propose a novel library in the Python framework, called PyLogik, to help alleviate this issue for ultrasound images, which are particularly challenging because of the frequent inclusion of PHI directly on the images. PyLogik processes the image volumes through a series of text detection/extraction, filtering, thresholding, morphological and contour comparisons. This methodology de-identifies the images, reduces file sizes, and prepares image volumes for applications in deep learning and data sharing. To evaluate its effectiveness in processing ultrasound data, a random sample of 50 cardiac ultrasounds (echocardiograms) were processed through PyLogik, and the outputs were compared with the manual segmentations by an expert user. The Dice coefficient of the two approaches achieved an average value of 0.976. Next, an investigation was conducted to ascertain the degree of information compression achieved using the algorithm. Resultant data was found to be on average ~72% smaller after processing by PyLogik. Our results suggest that PyLogik is a viable methodology for data cleaning and de-identification, determining ROI, and file compression which will facilitate efficient storage, use, and dissemination of ultrasound data. Variants of the pipeline have also been created for use with other medical imaging data types.
arxiv情報
著者 | Adrienne Kline,Vinesh Appadurai,Yuan Luo,Sanjiv Shah |
発行日 | 2023-05-10 13:55:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI