Semantically Redundant Training Data Removal and Deep Model Classification Performance: A Study with Chest X-rays

要約

ディープラーニング (DL) は、複雑な多次元データから階層的特徴を独立して学習する本来の能力を実証しています。
共通の理解は、そのパフォーマンスがトレーニング データの量に応じてスケールアップするということです。
もう 1 つのデータ属性は、固有の多様性です。
したがって、同様の情報または反復的な情報の存在である意味的冗長性は、パフォーマンスを低下させ、目に見えないデータに対する一般化可能性を制限する傾向があるということになります。
医療画像データでは、対象の疾患について非常に類似した表現を持つ複数の画像が存在するために、意味上の冗長性が発生する可能性があります。
さらに、DL トレーニングで多様性を生成するために拡張手法を一般的に使用すると、意味的に冗長なデータに適用するとパフォーマンスが制限される可能性があります。
意味的に冗長なトレーニング データを特定して削除するための、エントロピー ベースのサンプル スコアリング アプローチを提案します。
公開されている NIH 胸部 X 線データセットを使用して、トレーニング データの得られた有益なサブセットでトレーニングされたモデルが、内部 (再現率: 0.7164 vs 0.6597、p<0.05) と 外部テスト (リコール: 0.3185 vs 0.2589、p<0.05)。 私たちの調査結果は、利用可能なすべてのトレーニング データを使用する従来の手法とは対照的に、情報指向のトレーニング サンプルの選択の重要性を強調しています。

要約(オリジナル)

Deep learning (DL) has demonstrated its innate capacity to independently learn hierarchical features from complex and multi-dimensional data. A common understanding is that its performance scales up with the amount of training data. Another data attribute is the inherent variety. It follows, therefore, that semantic redundancy, which is the presence of similar or repetitive information, would tend to lower performance and limit generalizability to unseen data. In medical imaging data, semantic redundancy can occur due to the presence of multiple images that have highly similar presentations for the disease of interest. Further, the common use of augmentation methods to generate variety in DL training may be limiting performance when applied to semantically redundant data. We propose an entropy-based sample scoring approach to identify and remove semantically redundant training data. We demonstrate using the publicly available NIH chest X-ray dataset that the model trained on the resulting informative subset of training data significantly outperforms the model trained on the full training set, during both internal (recall: 0.7164 vs 0.6597, p<0.05) and external testing (recall: 0.3185 vs 0.2589, p<0.05). Our findings emphasize the importance of information-oriented training sample selection as opposed to the conventional practice of using all available training data.

arxiv情報

著者 Sivaramakrishnan Rajaraman,Ghada Zamzmi,Feng Yang,Zhaohui Liang,Zhiyun Xue,Sameer Antani
発行日 2023-09-18 13:56:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク