RadRotator: 3D Rotation of Radiographs with Diffusion Models

要約

2 次元 (2D) イメージを 3 次元 (3D) ボリュームに変換することは、コンピューター ビジョン コミュニティにとってよく知られているものの、難しい問題です。
医療分野では、以前のいくつかの研究で、2 つ以上の入力 X 線写真をコンピューター断層撮影 (CT) ボリュームに変換することが試みられました。
彼らの取り組みに続いて、私たちは、入力された X 線写真の解剖学的内容を 3D 空間で回転できる拡散モデルベースの技術を導入しました。これにより、X 線写真の解剖学的内容全体を 3D の任意の視点から視覚化できる可能性があります。
以前の研究と同様に、CT ボリュームを使用して、モデルのトレーニング データとしてデジタル再構成放射線写真 (DRR) を作成しました。
ただし、以前の研究で遭遇した 2 つの重大な制限に対処しました。 1. 敵対的生成ネットワーク (GAN) の代わりに、分類子を使用しないガイダンスを備えた条件付き拡散モデルを利用して、より高いモード カバレッジと出力画質の向上を実現しました。唯一のトレードオフは次のとおりです。
推論時間が遅くなるが、これは医療用途ではそれほど重要ではないことが多い。
2. 実際の X 線写真のスタイルを DRR に転送する Cycle-GAN などのスタイル転送ディープラーニング (DL) モデルの信頼性の低い出力を、ピクセル強度をランダムに変更するシンプルかつ効果的なトレーニング変換で置き換えることができることを実証しました。
トレーニング中の入力データとグラウンドトゥルース イメージング データのヒストグラム。
この変換により、拡散モデルは入力データのピクセル強度の分布変動に依存しないようになり、入力 DRR での DL モデルの信頼できるトレーニングが可能になり、推論中にまったく同じモデルを従来の X 線写真 (DRR) に適用できます。

要約(オリジナル)

Transforming two-dimensional (2D) images into three-dimensional (3D) volumes is a well-known yet challenging problem for the computer vision community. In the medical domain, a few previous studies attempted to convert two or more input radiographs into computed tomography (CT) volumes. Following their effort, we introduce a diffusion model-based technology that can rotate the anatomical content of any input radiograph in 3D space, potentially enabling the visualization of the entire anatomical content of the radiograph from any viewpoint in 3D. Similar to previous studies, we used CT volumes to create Digitally Reconstructed Radiographs (DRRs) as the training data for our model. However, we addressed two significant limitations encountered in previous studies: 1. We utilized conditional diffusion models with classifier-free guidance instead of Generative Adversarial Networks (GANs) to achieve higher mode coverage and improved output image quality, with the only trade-off being slower inference time, which is often less critical in medical applications; and 2. We demonstrated that the unreliable output of style transfer deep learning (DL) models, such as Cycle-GAN, to transfer the style of actual radiographs to DRRs could be replaced with a simple yet effective training transformation that randomly changes the pixel intensity histograms of the input and ground-truth imaging data during training. This transformation makes the diffusion model agnostic to any distribution variations of the input data pixel intensity, enabling the reliable training of a DL model on input DRRs and applying the exact same model to conventional radiographs (or DRRs) during inference.

arxiv情報

著者 Pouria Rouzrokh,Bardia Khosravi,Shahriar Faghani,Kellen L. Mulford,Michael J. Taunton,Bradley J. Erickson,Cody C. Wyles
発行日 2024-04-19 16:55:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク