要約
クラス不均衡とラベルノイズは大規模データセットに蔓延しているが、機械学習研究の多くは、十分にラベル付けされ、バランスの取れたデータを前提としている。既存のアプローチは通常、ラベルノイズかクラス不均衡のどちらか一方に単独で対処しており、両方の問題が共存する場合には最適な結果には至らない。本研究では、Conformal-in-the-Loop (CitL)を提案する。CitLは、Conformalな予測ベースのアプローチにより、両方の課題に対処する新しい学習フレームワークである。CitLは、重みを調整し、信頼できない例を削除するために、サンプルの不確実性を評価し、最小限の計算コストでモデルの回復力と精度を向上させる。我々の広範な実験には、ノイズの多い不均衡なデータセットにおいて、CitLがいかに効果的にインパクトのあるデータを強調するかを示す詳細な分析が含まれる。我々の結果は、CitLが一貫してモデルの性能を向上させ、分類精度で最大6.1%の向上、セグメンテーションで5.0mIoUの向上を達成したことを示している。我々のコードは公開されている:CitL。
要約(オリジナル)
Class imbalance and label noise are pervasive in large-scale datasets, yet much of machine learning research assumes well-labeled, balanced data, which rarely reflects real world conditions. Existing approaches typically address either label noise or class imbalance in isolation, leading to suboptimal results when both issues coexist. In this work, we propose Conformal-in-the-Loop (CitL), a novel training framework that addresses both challenges with a conformal prediction-based approach. CitL evaluates sample uncertainty to adjust weights and prune unreliable examples, enhancing model resilience and accuracy with minimal computational cost. Our extensive experiments include a detailed analysis showing how CitL effectively emphasizes impactful data in noisy, imbalanced datasets. Our results show that CitL consistently boosts model performance, achieving up to a 6.1% increase in classification accuracy and a 5.0 mIoU improvement in segmentation. Our code is publicly available: CitL.
arxiv情報
著者 | John Brandon Graham-Knight,Jamil Fayyad,Nourhan Bayasi,Patricia Lasserre,Homayoun Najjaran |
発行日 | 2024-11-04 17:09:58+00:00 |
arxivサイト | arxiv_id(pdf) |