CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning

要約

人間は、常識的な知識をコードする内部の世界モデルを開発し、世界がどのように機能するかを伝え、行動の結果を予測することができます。
この概念は、最近の予備作業で汎用の機械学習モデルを確立するための有望な方向として浮上しています。
この論文では、X線撮影画像の自立した世界モデルに向けた最初の努力であるChexworldを紹介します。
具体的には、私たちの研究は、1)局所組織(例えば、アーキテクチャ、形状、テクスチャなど)のきめ細かい特性を記述する局所解剖学的構造に不可欠な医療知識の3つの側面を同時にモデル化する統一されたフレームワークを開発します。
2)人体のグローバルな組織を説明するグローバルな解剖学的レイアウト(例:臓器や骨格のレイアウト)。
3)Chexworldがレントゲン写真の異なる外観ドメインにまたがる遷移をモデル化することを奨励するドメインのバリエーション(たとえば、さまざまな病院、デバイス、または患者からレントゲン写真を収集することによって引き起こされる透明度、コントラスト、および露出が変化します)。
経験的には、調整された定性的および定量的分析を設計し、Chexworldがこれらの3つの医学知識の次元を首尾よく捉えていることを明らかにします。
さらに、8つの医療画像分類とセグメンテーションベンチマークにわたるトランスファーラーニング実験は、Chexworldが既存のSSLメソッドと大規模な医療基盤モデルを大幅に上回ることを示しています。
Code&Pre-Trainedモデルは、https://github.com/leaplabthu/chexworldで入手できます。

要約(オリジナル)

Humans can develop internal world models that encode common sense knowledge, telling them how the world works and predicting the consequences of their actions. This concept has emerged as a promising direction for establishing general-purpose machine-learning models in recent preliminary works, e.g., for visual representation learning. In this paper, we present CheXWorld, the first effort towards a self-supervised world model for radiographic images. Specifically, our work develops a unified framework that simultaneously models three aspects of medical knowledge essential for qualified radiologists, including 1) local anatomical structures describing the fine-grained characteristics of local tissues (e.g., architectures, shapes, and textures); 2) global anatomical layouts describing the global organization of the human body (e.g., layouts of organs and skeletons); and 3) domain variations that encourage CheXWorld to model the transitions across different appearance domains of radiographs (e.g., varying clarity, contrast, and exposure caused by collecting radiographs from different hospitals, devices, or patients). Empirically, we design tailored qualitative and quantitative analyses, revealing that CheXWorld successfully captures these three dimensions of medical knowledge. Furthermore, transfer learning experiments across eight medical image classification and segmentation benchmarks showcase that CheXWorld significantly outperforms existing SSL methods and large-scale medical foundation models. Code & pre-trained models are available at https://github.com/LeapLabTHU/CheXWorld.

arxiv情報

著者 Yang Yue,Yulin Wang,Chenxin Tao,Pan Liu,Shiji Song,Gao Huang
発行日 2025-04-18 17:50:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク