Towards Enhanced Analysis of Lung Cancer Lesions in EBUS-TBNA — A Semi-Supervised Video Object Detection Method

要約

この研究は、医師が病変領域を特定するのを支援するために、気管支内超音波 (EBUS) を使用した肺病変のコンピュータ支援診断システムを確立することを目的としています。
EBUS 経気管支針吸引 (EBUS-TBNA) 処置中、医師はグレースケールの超音波画像を利用して病変の位置を特定します。
ただし、これらの画像には重大なノイズが含まれていることが多く、周囲の組織や血管の影響を受ける可能性があるため、識別が困難になります。
これまでの研究では、EBUS-TBNA への物体検出モデルの適用が不足しており、EBUS-TBNA データセット内の注釈付きデータの欠如に対する明確に定義された解決策はありませんでした。
超音波画像に関する関連研究では、モデルはそれぞれのタスクのターゲット領域をキャプチャすることに成功しましたが、そのトレーニングと予測は 2 次元画像に基づいており、予測を改善するために時間的特徴を活用する能力は限られていました。
この研究では、3 次元ビデオベースの物体検出モデルを導入します。
まず拡散モデルを使用して一連の改良されたクエリを生成し、次にアテンション メカニズムを通じて時間的相関を捕捉します。
フィルタリング メカニズムは、前のフレームから関連する情報を選択して、現在のフレームに渡します。
その後、教師と生徒のモデル トレーニング アプローチが採用され、ラベルなしのデータを使用してモデルがさらに最適化されます。
さまざまなデータ拡張と機能調整を組み込むことにより、モデルは干渉に対する堅牢性を獲得します。
テスト結果は、時空間情報を取得し、半教師あり学習手法を採用するこのモデルが、テスト データセットで 48.7 の平均精度 (AP) を達成し、他のモデルを上回るパフォーマンスを示していることを示しています。
また、平均再現率 (AR) 79.2 を達成し、既存のモデルを大きく上回ります。

要約(オリジナル)

This study aims to establish a computer-aided diagnostic system for lung lesions using endobronchial ultrasound (EBUS) to assist physicians in identifying lesion areas. During EBUS-transbronchial needle aspiration (EBUS-TBNA) procedures, hysicians rely on grayscale ultrasound images to determine the location of lesions. However, these images often contain significant noise and can be influenced by surrounding tissues or blood vessels, making identification challenging. Previous research has lacked the application of object detection models to EBUS-TBNA, and there has been no well-defined solution for the lack of annotated data in the EBUS-TBNA dataset. In related studies on ultrasound images, although models have been successful in capturing target regions for their respective tasks, their training and predictions have been based on two-dimensional images, limiting their ability to leverage temporal features for improved predictions. This study introduces a three-dimensional video-based object detection model. It first generates a set of improved queries using a diffusion model, then captures temporal correlations through an attention mechanism. A filtering mechanism selects relevant information from previous frames to pass to the current frame. Subsequently, a teacher-student model training approach is employed to further optimize the model using unlabeled data. By incorporating various data augmentation and feature alignment, the model gains robustness against interference. Test results demonstrate that this model, which captures spatiotemporal information and employs semi-supervised learning methods, achieves an Average Precision (AP) of 48.7 on the test dataset, outperforming other models. It also achieves an Average Recall (AR) of 79.2, significantly leading over existing models.

arxiv情報

著者 Jyun-An Lin,Yun-Chien Cheng,Ching-Kai Lin
発行日 2024-06-21 02:28:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク