Trustworthy Machine Learning via Memorization and the Granular Long-Tail: A Survey on Interactions, Tradeoffs, and Beyond

要約

機械学習(ML)における暗記の役割は、特に現代のモデルがトレーニングデータの断片を記憶するように経験的に観察されているため、大きな注目を集めています。
フェルドマンの独創的な作品などの以前の理論分析は、トレーニングデータにおける長期尾分布の有病率に暗記を帰し、分布の尾にあるサンプルについては避けられないことを証明します。
ただし、暗記と信頼できるMLの研究の交差点は、重要なギャップを明らかにしています。
信頼できるMLでの暗記に関する以前の研究は、クラスの不均衡のみに焦点を当てていますが、最近の研究は、有効でまれなクラス内インスタンスである非定型サンプルとクラスレベルの希少性を区別し始めています。
ただし、重要な研究のギャップは残っています。現在のフレームワークは、非定型サンプルを騒々しいデータと誤ったデータと混同し、公平性、堅牢性、プライバシーに対する異なる影響を無視します。
この作業では、既存の研究と信頼できるMLと暗記の役割に関するその結果に関する徹底的な調査を実施します。
さらにそれ以上に、私たちは未知のギャップを特定し、強調し、この研究の方向に新しい収益を提案します。
既存の理論的および経験的分析には、必要性と責任の両方として記憶の二重性を解き放つためのニュアンスが欠けているため、3レベルの長期尾の粒度 – クラスの不均衡、非定型、ノイズ – 現在のフレームワークがこれらのレベルをどのように誤って適用するかを明らかにし、潜在的な解決策を永続させます。
この粒度を体系化することにより、将来の研究のためのロードマップを描きます。
信頼できるMLは、公平性保証のために非定型性を暗記することと、堅牢性とプライバシー保証のためにノイズを抑制することとの間の微妙なトレードオフを調整する必要があります。
この粒度を介して暗記を再定義すると、信頼できるMLの理論的基盤が形成され、パフォーマンスを社会的信頼に合わせるモデルの経験的前提条件がさらに得られます。

要約(オリジナル)

The role of memorization in machine learning (ML) has garnered significant attention, particularly as modern models are empirically observed to memorize fragments of training data. Previous theoretical analyses, such as Feldman’s seminal work, attribute memorization to the prevalence of long-tail distributions in training data, proving it unavoidable for samples that lie in the tail of the distribution. However, the intersection of memorization and trustworthy ML research reveals critical gaps. While prior research in memorization in trustworthy ML has solely focused on class imbalance, recent work starts to differentiate class-level rarity from atypical samples, which are valid and rare intra-class instances. However, a critical research gap remains: current frameworks conflate atypical samples with noisy and erroneous data, neglecting their divergent impacts on fairness, robustness, and privacy. In this work, we conduct a thorough survey of existing research and their findings on trustworthy ML and the role of memorization. More and beyond, we identify and highlight uncharted gaps and propose new revenues in this research direction. Since existing theoretical and empirical analyses lack the nuances to disentangle memorization’s duality as both a necessity and a liability, we formalize three-level long-tail granularity – class imbalance, atypicality, and noise – to reveal how current frameworks misapply these levels, perpetuating flawed solutions. By systematizing this granularity, we draw a roadmap for future research. Trustworthy ML must reconcile the nuanced trade-offs between memorizing atypicality for fairness assurance and suppressing noise for robustness and privacy guarantee. Redefining memorization via this granularity reshapes the theoretical foundation for trustworthy ML, and further affords an empirical prerequisite for models that align performance with societal trust.

arxiv情報

著者 Qiongxiu Li,Xiaoyu Luo,Yiyi Chen,Johannes Bjerva
発行日 2025-03-10 16:20:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク