Beyond Size and Class Balance: Alpha as a New Dataset Quality Metric for Deep Learning

要約

深層学習では、画像分類タスクで高いパフォーマンスを達成するには、多様なトレーニング セットが必要です。
ただし、データセットの多様性は完全には理解されていません。
現在のベスト プラクティスは、データセットのサイズとクラスのバランスを最大化することです。
しかし、大規模でクラスバランスの取れたデータセットが多様性を持つことが保証されているわけではありません。画像は依然として任意に類似している可能性があります。
私たちは、特定のモデル アーキテクチャにおいて、データセットの多様性をより直接的に最大化することで、より優れたモデル パフォーマンスを達成できるという仮説を立てました。
これにより、追加の計算リソースやアーキテクチャの進歩を必要とせずに、パフォーマンスを向上させる道が開かれる可能性があります。
この仮説を検証するために、生態学で開発された多様性測定の包括的なフレームワークを導入します。これは、画像間の類似点と相違点を考慮して、シャノンのエントロピーのようなよく知られた量を一般化します。
(データセットのサイズとクラスのバランスは、特別なケースとしてこのフレームワークから出てきます。)超音波、X 線、CT、および病理画像を表す 7 つの医療データセットから数千のサブセットを分析することにより、パフォーマンスの最も優れた相関関係はサイズやクラスではないことがわかりました。
バランスだが $A$ — 「ビッグ アルファ」 — 画像間の類似性を考慮した上で、データセット内の画像クラスのペアの有効数として解釈される一連の一般化されたエントロピー測定値。
これらの 1 つである $A_0$ は、すべてのサブセットにわたるバランスのとれた精度の分散の 67\% を説明しました。これに対し、クラスのバランスについては 54\%、サイズについてはわずか 39\% でした。
最良のペアはサイズと $A_1​​$ (79\%) で、サイズとクラスのバランス (74\%) を上回っていました。
$A$ は、個々のデータセットのサブセットおよびデータセット全体で最も優れたパフォーマンスを示し、これらの結果の一般性を裏付けています。
私たちは、医療画像処理における深層学習のパフォーマンスを向上させる新しい方法の可能性として $A$ を最大化することを提案します。

要約(オリジナル)

In deep learning, achieving high performance on image classification tasks requires diverse training sets. However, dataset diversity is incompletely understood. The current best practice is to try to maximize dataset size and class balance. Yet large, class-balanced datasets are not guaranteed to be diverse: images can still be arbitrarily similar. We hypothesized that, for a given model architecture, better model performance can be achieved by maximizing dataset diversity more directly. This could open a path for performance improvement without additional computational resources or architectural advances. To test this hypothesis, we introduce a comprehensive framework of diversity measures, developed in ecology, that generalizes familiar quantities like Shannon entropy by accounting for similarities and differences among images. (Dataset size and class balance emerge from this framework as special cases.) By analyzing thousands of subsets from seven medical datasets representing ultrasound, X-ray, CT, and pathology images, we found that the best correlates of performance were not size or class balance but $A$ — “big alpha” — a set of generalized entropy measures interpreted as the effective number of image-class pairs in the dataset, after accounting for similarities among images. One of these, $A_0$, explained 67\% of the variance in balanced accuracy across all subsets, vs. 54\% for class balance and just 39\% for size. The best pair was size and $A_1$ (79\%), which outperformed size and class balance (74\%). $A$ performed best for subsets from individual datasets as well as across datasets, supporting the generality of these results. We propose maximizing $A$ as a potential new way to improve the performance of deep learning in medical imaging.

arxiv情報

著者 Josiah Couch,Ramy Arnaout,Rima Arnaout
発行日 2024-07-22 15:28:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, I.2.6 パーマリンク