Towards Better Cephalometric Landmark Detection with Diffusion Data Generation

要約

矯正診断と治療計画には、頭測定のランドマーク検出が不可欠です。
それにもかかわらず、データ収集におけるサンプルの不足と手動注釈に必要な広範な努力により、多様なデータセットの可用性が大幅に妨げられています。
この制限により、特に大規模なビジョンモデルに基づくものに基づく深い学習ベースの検出方法の有効性が制限されています。
これらの課題に対処するために、私たちは、人間の介入なしに対応する注釈とともに、多様な頭部計測X線画像を生成できる革新的なデータ生成方法を開発しました。
これを達成するために、私たちのアプローチは、解剖学的前層を使用して新しい頭位測定のランドマークアノテーションを構築することにより開始されます。
次に、拡散ベースのジェネレーターを使用して、これらの注釈に密接に対応する現実的なX線画像を作成します。
さまざまな属性を持つサンプルを生成する際に正確な制御を実現するために、新しい迅速なセファロメトリックX線画像データセットを導入します。
このデータセットには、実際の頭位測定X線画像と、画像を説明する詳細な医療テキストプロンプトが含​​まれています。
これらの詳細なプロンプトを活用することにより、私たちの方法は、さまざまなスタイルと属性を制御するための生成プロセスを改善します。
大規模で多様な生成されたデータによって促進され、精度を向上させるために、大規模な視覚検出モデルをセファロメトリックランドマーク検出タスクに導入します。
実験結果は、生成されたデータを使用したトレーニングがパフォーマンスを大幅に向上させることを示しています。
生成されたデータを使用せずに方法と比較して、当社のアプローチは成功検知率(SDR)を6.5%改善し、顕著な82.2%を達成します。
すべてのコードとデータは、https://um-lab.github.io/cepha-generationで入手できます

要約(オリジナル)

Cephalometric landmark detection is essential for orthodontic diagnostics and treatment planning. Nevertheless, the scarcity of samples in data collection and the extensive effort required for manual annotation have significantly impeded the availability of diverse datasets. This limitation has restricted the effectiveness of deep learning-based detection methods, particularly those based on large-scale vision models. To address these challenges, we have developed an innovative data generation method capable of producing diverse cephalometric X-ray images along with corresponding annotations without human intervention. To achieve this, our approach initiates by constructing new cephalometric landmark annotations using anatomical priors. Then, we employ a diffusion-based generator to create realistic X-ray images that correspond closely with these annotations. To achieve precise control in producing samples with different attributes, we introduce a novel prompt cephalometric X-ray image dataset. This dataset includes real cephalometric X-ray images and detailed medical text prompts describing the images. By leveraging these detailed prompts, our method improves the generation process to control different styles and attributes. Facilitated by the large, diverse generated data, we introduce large-scale vision detection models into the cephalometric landmark detection task to improve accuracy. Experimental results demonstrate that training with the generated data substantially enhances the performance. Compared to methods without using the generated data, our approach improves the Success Detection Rate (SDR) by 6.5%, attaining a notable 82.2%. All code and data are available at: https://um-lab.github.io/cepha-generation

arxiv情報

著者 Dongqian Guo,Wencheng Han,Pang Lyu,Yuxi Zhou,Jianbing Shen
発行日 2025-05-09 13:50:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク