Building Flexible, Scalable, and Machine Learning-ready Multimodal Oncology Datasets


この研究では、Cancer Research Data Commons (CRDC) などの公的ソースからの異種データを、相互接続された患者中心のフレームワークに効率的に融合するための、柔軟でスケーラブルでコスト効率の高いメタデータ フレームワークである、Multimodal Integration of Oncology Data System (MINDS) を提案しています。

MINDS は、データ型間の関係を調査し、大規模なマルチモーダル機械学習モデルを開発するためのコホートを構築するためのインターフェイスを提供します。
MINDS は、マルチモーダル データを調和させることにより、研究者が診断および予後に関する洞察を明らかにし、証拠に基づいた個別化されたケアを可能にする、より優れた分析能力を潜在的に強化することを目指しています。
MINDS は、エンドツーエンドの詳細なデータの出自を追跡し、再現性と透明性を確保します。
MINDS のクラウドネイティブ アーキテクチャは、大幅なストレージの最適化、レプリケーションの回避、および動的アクセス機能を確保しながら、安全かつコストが最適化された方法で急激なデータ増加に対処できます。
MINDS は、腫瘍学データ統合の将来に向けた極めて重要な一歩となる、相互運用可能なメタデータ主導のアプローチを通じて、既存の生物医学データ サイロの制限を克服します。


The advancements in data acquisition, storage, and processing techniques have resulted in the rapid growth of heterogeneous medical data. Integrating radiological scans, histopathology images, and molecular information with clinical data is essential for developing a holistic understanding of the disease and optimizing treatment. The need for integrating data from multiple sources is further pronounced in complex diseases such as cancer for enabling precision medicine and personalized treatments. This work proposes Multimodal Integration of Oncology Data System (MINDS) – a flexible, scalable, and cost-effective metadata framework for efficiently fusing disparate data from public sources such as the Cancer Research Data Commons (CRDC) into an interconnected, patient-centric framework. MINDS offers an interface for exploring relationships across data types and building cohorts for developing large-scale multimodal machine learning models. By harmonizing multimodal data, MINDS aims to potentially empower researchers with greater analytical ability to uncover diagnostic and prognostic insights and enable evidence-based personalized care. MINDS tracks granular end-to-end data provenance, ensuring reproducibility and transparency. The cloud-native architecture of MINDS can handle exponential data growth in a secure, cost-optimized manner while ensuring substantial storage optimization, replication avoidance, and dynamic access capabilities. Auto-scaling, access controls, and other mechanisms guarantee pipelines’ scalability and security. MINDS overcomes the limitations of existing biomedical data silos via an interoperable metadata-driven approach that represents a pivotal step toward the future of oncology data integration.


著者 Aakash Tripathi,Asim Waqas,Kavya Venkatesan,Yasin Yilmaz,Ghulam Rasool
発行日 2023-12-22 15:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG パーマリンク