要約
コンピューター断層撮影では、自動データ処理に機械学習がよく使用されます。
ただし、モデルの複雑さが増すと、ますます大容量のデータセットが伴い、モデル トレーニングのコストが増加します。
モデル アーキテクチャとトレーニング アルゴリズムを進化させることでこれを軽減するほとんどの作業とは異なり、注釈手順とそのモデル パフォーマンスへの影響を考慮します。
モデル トレーニング用に収集された優れたデータセットの 3 つの主な美徳は、ラベルの品質、多様性、および完全性であると想定しています。
オープンな医療用CTデータセットを使用してモデルのパフォーマンスに対するこれらの美徳の影響を比較し、ラベリングの早い段階で多様性よりも品質が重要であると結論付けました。
多様性は、完全性よりも重要です。
この結論と追加の実験に基づいて、断層画像のセグメンテーションのラベリング手順を提案し、モデルのパフォーマンスを最大化しながらラベリングに費やされる労力を最小限に抑えます。
要約(オリジナル)
In Computed Tomography, machine learning is often used for automated data processing. However, increasing model complexity is accompanied by increasingly large volume datasets, which in turn increases the cost of model training. Unlike most work that mitigates this by advancing model architectures and training algorithms, we consider the annotation procedure and its effect on the model performance. We assume three main virtues of a good dataset collected for a model training to be label quality, diversity, and completeness. We compare the effects of those virtues on the model performance using open medical CT datasets and conclude, that quality is more important than diversity early during labeling; the diversity, in turn, is more important than completeness. Based on this conclusion and additional experiments, we propose a labeling procedure for the segmentation of tomographic images to minimize efforts spent on labeling while maximizing the model performance.
arxiv情報
著者 | Yaroslav Zharov,Tilo Baumbach,Vincent Heuveline |
発行日 | 2023-03-24 15:52:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google