Taming Detection Transformers for Medical Object Detection

要約

医療画像内の疑わしい領域を正確に検出することは、日常的に実行される多くの診断手順で必要とされる、エラーが発生しやすく、時間のかかるプロセスです。
この困難な作業中に臨床医をサポートするために、多くのハイパーパラメータを含む複雑な方法に依存するいくつかの自動化ソリューションが提案されました。
この研究では、体積医療物体検出のための DEtection TRansformer (DETR) モデルの実現可能性を調査します。
以前の研究とは対照的に、これらのモデルは、アンカーの設計や、オブジェクトを検出するための非最大値抑制などの手動ヒューリスティックに依存せずに、オブジェクトのセットを直接予測します。
4 つのデータセット (CADA、RibFrac、KiTS19、LIDC) に対して 3 つのモデル、つまり DETR、Conditional DETR、DINO DETR を使用して広範な実験を行うことにより、これらのセット予測モデルが現在の既存の方法と同等、またはそれよりも優れたパフォーマンスを発揮できることを示します。

私たちの実験で最もパフォーマンスの高いモデルである DINO DETR は、4 つのデータセットのうち 3 つで強力なアンカーベースの 1 段階検出器である Retina U-Net を上回るパフォーマンスを示し、これを実証しています。

要約(オリジナル)

The accurate detection of suspicious regions in medical images is an error-prone and time-consuming process required by many routinely performed diagnostic procedures. To support clinicians during this difficult task, several automated solutions were proposed relying on complex methods with many hyperparameters. In this study, we investigate the feasibility of DEtection TRansformer (DETR) models for volumetric medical object detection. In contrast to previous works, these models directly predict a set of objects without relying on the design of anchors or manual heuristics such as non-maximum-suppression to detect objects. We show by conducting extensive experiments with three models, namely DETR, Conditional DETR, and DINO DETR on four data sets (CADA, RibFrac, KiTS19, and LIDC) that these set prediction models can perform on par with or even better than currently existing methods. DINO DETR, the best-performing model in our experiments demonstrates this by outperforming a strong anchor-based one-stage detector, Retina U-Net, on three out of four data sets.

arxiv情報

著者 Marc K. Ickler,Michael Baumgartner,Saikat Roy,Tassilo Wald,Klaus H. Maier-Hein
発行日 2023-06-27 13:46:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク