Metrics reloaded: Pitfalls and recommendations for image analysis validation

要約

機械学習 (ML) アルゴリズムの検証における欠陥が過小評価されている世界的な問題であることを示す証拠が増えています。
特に自動生物医学画像解析では、選択されたパフォーマンス メトリクスがドメインの関心を反映していないことが多いため、科学の進歩を適切に測定できず、ML 技術の実践への移行が妨げられています。
これを克服するために、大規模な国際的な専門家コンソーシアムが Metrics Reloaded を作成しました。これは、研究者が問題を意識した方法で指標を選択するように導く包括的なフレームワークです。
アプリケーション ドメイン全体での ML 方法論の収束に続いて、Metrics Reloaded は検証方法論の収束を促進します。
このフレームワークは、多段階の Delphi プロセスで開発され、問題フィンガープリントの新しい概念に基づいています。これは、ドメインの関心からターゲットのプロパティまで、メトリック選択に関連するすべての側面をキャプチャする、特定の問題の構造化された表現です。
構造、データセット、およびアルゴリズム出力。
Metrics Reloaded は、画像、オブジェクト、またはピクセル レベルでの分類タスク、つまり画像レベルの分類、オブジェクト検出、セマンティック セグメンテーション、およびインスタンス セグメンテーション タスクとして解釈できる画像分析の問題を対象としています。
ユーザーは、潜在的な落とし穴を認識しながら、適切な検証指標を選択して適用するプロセスをガイドされます。
ユーザー エクスペリエンスを向上させるために、Metrics Reloaded オンライン ツールにフレームワークを実装しました。これは、最も一般的な検証メトリックの弱点と長所を調査するための共通のアクセス ポイントも提供します。
さまざまな生物学的および医用画像分析のユースケースのフレームワークのインスタンス化は、ドメイン全体での幅広い適用性を示しています。

要約(オリジナル)

Increasing evidence shows that flaws in machine learning (ML) algorithm validation are an underestimated global problem. Particularly in automatic biomedical image analysis, chosen performance metrics often do not reflect the domain interest, thus failing to adequately measure scientific progress and hindering translation of ML techniques into practice. To overcome this, a large international expert consortium created Metrics Reloaded, a comprehensive framework guiding researchers towards choosing metrics in a problem-aware manner. Following the convergence of ML methodology across application domains, Metrics Reloaded fosters the convergence of validation methodology. The framework was developed in a multi-stage Delphi process and is based on the novel concept of a problem fingerprint – a structured representation of the given problem that captures all aspects that are relevant for metric selection from the domain interest to the properties of the target structure(s), data set and algorithm output. Metrics Reloaded targets image analysis problems that can be interpreted as a classification task at image, object or pixel level, namely image-level classification, object detection, semantic segmentation, and instance segmentation tasks. Users are guided through the process of selecting and applying appropriate validation metrics while being made aware of potential pitfalls. To improve the user experience, we implemented the framework in the Metrics Reloaded online tool, which also provides a common point of access to explore weaknesses and strengths of the most common validation metrics. An instantiation of the framework for various biological and medical image analysis use cases demonstrates its broad applicability across domains.

arxiv情報

著者 Lena Maier-Hein,Annika Reinke,Patrick Godau,Minu D. Tizabi,Evangelia Christodoulou,Ben Glocker,Fabian Isensee,Jens Kleesiek,Michal Kozubek,Mauricio Reyes,Michael A. Riegler,Manuel Wiesenfarth,Michael Baumgartner,Matthias Eisenmann,Doreen Heckmann-Nötzel,A. Emre Kavur,Tim Rädsch,Laura Acion,Michela Antonelli,Tal Arbel,Spyridon Bakas,Peter Bankhead,Arriel Benis,M. Jorge Cardoso,Veronika Cheplygina,Beth Cimini,Gary S. Collins,Keyvan Farahani,Luciana Ferrer,Adrian Galdran,Bram van Ginneken,Robert Haase,Daniel A. Hashimoto,Michael M. Hoffman,Merel Huisman,Pierre Jannin,Charles E. Kahn,Dagmar Kainmueller,Bernhard Kainz,Alexandros Karargyris,Alan Karthikesalingam,Hannes Kenngott,Florian Kofler,Annette Kopp-Schneider,Anna Kreshuk,Tahsin Kurc,Bennett A. Landman,Geert Litjens,Amin Madani,Klaus Maier-Hein,Anne L. Martel,Peter Mattson,Erik Meijering,Bjoern Menze,David Moher,Karel G. M. Moons,Henning Müller,Brennan Nichyporuk,Felix Nickel,Jens Petersen,Nasir Rajpoot,Nicola Rieke,Julio Saez-Rodriguez,Clarisa Sánchez Gutiérrez,Shravya Shetty,Maarten van Smeden,Carole H. Sudre,Ronald M. Summers,Abdel A. Taha,Sotirios A. Tsaftaris,Ben Van Calster,Gaël Varoquaux,Paul F. Jäger
発行日 2022-09-15 17:48:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク