A Large-scale Multi Domain Leukemia Dataset for the White Blood Cells Detection with Morphological Attributes for Explainability

要約

白血病を早期に診断できれば、毎年何千人もの命が救われます。
白血病の予後は、白血球 (WBC) の形態学的情報がなければ困難であり、高価な顕微鏡の入手しやすさと末梢血サンプル (PBS) を分析できる血液学者の有無に依存しています。
深層学習ベースの方法を採用して、血液学者を支援できます。
ただし、これらのアルゴリズムには大量のラベル付きデータが必要であり、すぐには入手できません。
この制限を克服するために、私たちは現実的で一般化された大規模なデータセットを取得しました。
実世界のアプリケーション向けにこの包括的なデータセットを収集するには、2 つの異なるコスト範囲 (高コスト HCM と低コスト LCM) の 2 台の顕微鏡を使用して、異なるセンサー (高コスト、
HCM の場合はエンド カメラ、LCM の場合は中間レベルのカメラ、両方の場合は携帯電話のカメラ)。
ハイセンサーカメラは中級カメラの47倍、HCMはLCMより17倍高価です。
このコレクションでは、経験豊富な血液学者が高解像度 (100x) の HCM を使用して、複数の PBS の 2.4k 画像から 55k の形態学的ラベル (細胞サイズ、核クロマチン、核の形状など) を持つ 10.3k の WBC タイプ (14) とアーティファクトに注釈を付けました。
白血病患者。
その後、これらの注釈は他の 2 倍率の HCM と 3 倍率の LCM に転送され、各カメラでキャプチャされた画像になります。
LeukemiaAttri データセットとともに、形態学的情報に基づく属性予測とともに、複数の物体検出器と教師なしドメイン適応 (UDA) 戦略にわたるベースラインを提供します。
この方向の研究を促進するために、データセットは出版後に一般公開されます。

要約(オリジナル)

Earlier diagnosis of Leukemia can save thousands of lives annually. The prognosis of leukemia is challenging without the morphological information of White Blood Cells (WBC) and relies on the accessibility of expensive microscopes and the availability of hematologists to analyze Peripheral Blood Samples (PBS). Deep Learning based methods can be employed to assist hematologists. However, these algorithms require a large amount of labeled data, which is not readily available. To overcome this limitation, we have acquired a realistic, generalized, and large dataset. To collect this comprehensive dataset for real-world applications, two microscopes from two different cost spectrums (high-cost HCM and low-cost LCM) are used for dataset capturing at three magnifications (100x, 40x, 10x) through different sensors (high-end camera for HCM, middle-level camera for LCM and mobile-phone camera for both). The high-sensor camera is 47 times more expensive than the middle-level camera and HCM is 17 times more expensive than LCM. In this collection, using HCM at high resolution (100x), experienced hematologists annotated 10.3k WBC types (14) and artifacts, having 55k morphological labels (Cell Size, Nuclear Chromatin, Nuclear Shape, etc.) from 2.4k images of several PBS leukemia patients. Later on, these annotations are transferred to other 2 magnifications of HCM, and 3 magnifications of LCM, and on each camera captured images. Along with the LeukemiaAttri dataset, we provide baselines over multiple object detectors and Unsupervised Domain Adaptation (UDA) strategies, along with morphological information-based attribute prediction. The dataset will be publicly available after publication to facilitate the research in this direction.

arxiv情報

著者 Abdul Rehman,Talha Meraj,Aiman Mahmood Minhas,Ayisha Imran,Mohsen Ali,Waqas Sultani
発行日 2024-05-17 14:20:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク