The Power of Few: Accelerating and Enhancing Data Reweighting with Coreset Selection

要約

機械学習タスクが進化し続けるにつれて、より大規模なデータセットを収集し、ますます大規模なモデルをトレーニングする傾向が見られます。
これにより精度は向上しましたが、計算コストも持続不可能なレベルまで上昇しました。
これに対処するために、私たちの取り組みは、この分野での永続的な課題である、計算効率とモデルの精度の間の微妙なバランスを取ることを目指しています。
再重み付けにコア サブセット選択を採用し、計算時間とモデルのパフォーマンスの両方を効果的に最適化する新しい方法を導入します。
戦略的に選択されたコアセットに焦点を当てることにより、私たちのアプローチは外れ値の影響を効率的に最小限に抑えるため、堅牢な表現を提供します。
再調整された重みはデータセット全体にマッピングされ、データセット全体に伝播されます。
私たちの実験結果はこのアプローチの有効性を実証し、モデルトレーニングのためのスケーラブルで正確なソリューションとしての可能性を強調しています。

要約(オリジナル)

As machine learning tasks continue to evolve, the trend has been to gather larger datasets and train increasingly larger models. While this has led to advancements in accuracy, it has also escalated computational costs to unsustainable levels. Addressing this, our work aims to strike a delicate balance between computational efficiency and model accuracy, a persisting challenge in the field. We introduce a novel method that employs core subset selection for reweighting, effectively optimizing both computational time and model performance. By focusing on a strategically selected coreset, our approach offers a robust representation, as it efficiently minimizes the influence of outliers. The re-calibrated weights are then mapped back to and propagated across the entire dataset. Our experimental results substantiate the effectiveness of this approach, underscoring its potential as a scalable and precise solution for model training.

arxiv情報

著者 Mohammad Jafari,Yimeng Zhang,Yihua Zhang,Sijia Liu
発行日 2024-03-20 15:27:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク