3DPX: Progressive 2D-to-3D Oral Image Reconstruction with Hybrid MLP-CNN Networks


パノラマX線(PX)は、広く利用可能で安価であるため、歯科診療において広く普及しているモダリティである。しかし、2D投影画像であるPXには3D解剖学的情報が含まれていないため、3D情報を活用できる歯科用途(歯の角度ずれ検出や分類など)での使用は限られています。2D PXから直接3D構造を再構成することは、主に2Dから3Dへの直接マッピングのための畳み込みニューラルネットワーク(CNN)に依存する既存の方法の限界を解決するために、最近研究されています。しかし、これらの方法では、奥行き軸の空間情報を正しく推測することができない。加えて、畳み込みカーネルは近傍画素の情報しか取り込まないため、畳み込み演算の本質的な局所性によって制限される。本研究では、2次元から3次元への経口PX再構成のために、プログレッシブハイブリッド多層パーセプトロン(MLP)-CNNパイラミッドネットワーク(3DPX)を提案する。この3DPXでは、各ピラミッドレベルでの中間再構成結果に対してガイダンスが課され、3D画像が漸進的に再構成される。さらに、きめ細かな長距離依存関係を捉えることが期待されるMLPの最近の普及に動機付けられ、我々の3DPXは、再構成中の意味理解を向上させるためにMLPとCNNを統合する。464の研究を含む2つの大規模データセットでの広範な実験により、我々の3DPXが、単体のMLPや変換器を含む、最先端の2Dから3Dへの口腔再構成法を、再構成品質において凌駕し、また、下流の角度ずれ分類タスクの性能を向上させることが実証された。


Panoramic X-ray (PX) is a prevalent modality in dental practice for its wide availability and low cost. However, as a 2D projection image, PX does not contain 3D anatomical information, and therefore has limited use in dental applications that can benefit from 3D information, e.g., tooth angular misa-lignment detection and classification. Reconstructing 3D structures directly from 2D PX has recently been explored to address limitations with existing methods primarily reliant on Convolutional Neural Networks (CNNs) for direct 2D-to-3D mapping. These methods, however, are unable to correctly infer depth-axis spatial information. In addition, they are limited by the in-trinsic locality of convolution operations, as the convolution kernels only capture the information of immediate neighborhood pixels. In this study, we propose a progressive hybrid Multilayer Perceptron (MLP)-CNN pyra-mid network (3DPX) for 2D-to-3D oral PX reconstruction. We introduce a progressive reconstruction strategy, where 3D images are progressively re-constructed in the 3DPX with guidance imposed on the intermediate recon-struction result at each pyramid level. Further, motivated by the recent ad-vancement of MLPs that show promise in capturing fine-grained long-range dependency, our 3DPX integrates MLPs and CNNs to improve the semantic understanding during reconstruction. Extensive experiments on two large datasets involving 464 studies demonstrate that our 3DPX outperforms state-of-the-art 2D-to-3D oral reconstruction methods, including standalone MLP and transformers, in reconstruction quality, and also im-proves the performance of downstream angular misalignment classification tasks.


著者 Xiaoshuang Li,Mingyuan Meng,Zimo Huang,Lei Bi,Eduardo Delamare,Dagan Feng,Bin Sheng,Jinman Kim
発行日 2024-08-02 14:28:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, eess.IV パーマリンク