Challenge Results Are Not Reproducible

要約

臨床試験は新薬の効果を比較評価する最先端の手法ですが、医用画像解析分野のベンチマークはいわゆるチャレンジによって行われます。
最近、複数の生物医学画像解析の課題を包括的に分析した結果、課題の影響と、設計および報告基準の品質管理との間に大きな差異があることが明らかになりました。
この研究は、これらの結果を追跡することを目的とし、参加者の手法の再現性に関する特定の問題に対処することを試みます。
手法の説明の別の解釈によってチャレンジのランキングが変わる可能性があるかどうかを判断するために、2019 年のロバスト医用画像セグメンテーション チャレンジ (ROBUST-MIS) に提出されたアルゴリズムを再現しました。
リーダーボードは、元のチャレンジと再実装の間で大幅に異なり、チャレンジのランキングが十分に再現できない可能性があることを示しています。

要約(オリジナル)

While clinical trials are the state-of-the-art methods to assess the effect of new medication in a comparative manner, benchmarking in the field of medical image analysis is performed by so-called challenges. Recently, comprehensive analysis of multiple biomedical image analysis challenges revealed large discrepancies between the impact of challenges and quality control of the design and reporting standard. This work aims to follow up on these results and attempts to address the specific question of the reproducibility of the participants methods. In an effort to determine whether alternative interpretations of the method description may change the challenge ranking, we reproduced the algorithms submitted to the 2019 Robust Medical Image Segmentation Challenge (ROBUST-MIS). The leaderboard differed substantially between the original challenge and reimplementation, indicating that challenge rankings may not be sufficiently reproducible.

arxiv情報

著者 Annika Reinke,Georg Grab,Lena Maier-Hein
発行日 2023-07-14 08:41:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク