Coreset Selection via LLM-based Concept Bottlenecks

要約

Coreset Selection(CS)は、データセット全体の使用に匹敵するモデルパフォーマンスを実現するトレーニングデータセットのサブセットを識別することを目的としています。
最先端のCSメソッドの多くは、最初にデータセット全体でダウンストリームモデルをトレーニングする必要があるスコアを使用してコアセットを選択し、トレーニング中にサンプルのモデルの動作を記録します(トレーニングダイナミクス)。
これらのスコアは、サンプルを一般的に学習するのが難しいのか、特定のダウンストリームモデルについて学習するのが困難であるかを示していないため、計算するのが非効率的で解釈が困難です。
私たちの仕事は、下流モデルとは無関係に人間に理解できないテキスト属性(概念)を使用してサンプルの難易度を計算するスコアを提案することにより、これらの課題に対処します。
具体的には、線形コンセプトボトルネックレイヤーをトレーニングし、それを使用してサンプルの難易度スコアを計算することにより、大規模な言語モデルを介して導出されたサンプルの視覚的特徴とコンセプトボトルネック間のアライメントを測定します。その後、このスコアに基づいて層状サンプリングを使用して、データセットのコアセットを生成します。
さまざまなダウンストリームモデル用のコアセットであり、非標識データセットでも計算可能です。
CIFAR-10/100およびImagenet-1Kの実験を通じて、コアセットはランダムサブセットを高くすることで、高剪定速度でもランダムなサブセットを上回り、トレーニングダイナミクスベースの方法で見つかったコアセットと同等以上のモデルパフォーマンスを実現することを示します。

要約(オリジナル)

Coreset Selection (CS) aims to identify a subset of the training dataset that achieves model performance comparable to using the entire dataset. Many state-of-the-art CS methods select coresets using scores whose computation requires training the downstream model on the entire dataset first and recording changes in the model’s behavior on samples as it trains (training dynamics). These scores are inefficient to compute and hard to interpret, as they do not indicate whether a sample is difficult to learn in general or only for a specific downstream model. Our work addresses these challenges by proposing a score that computes a sample’s difficulty using human-understandable textual attributes (concepts) independent of any downstream model. Specifically, we measure the alignment between a sample’s visual features and concept bottlenecks, derived via large language models, by training a linear concept bottleneck layer and computing the sample’s difficulty score using it.We then use stratified sampling based on this score to generate a coreset of the dataset.Crucially, our score is efficiently computable without training the downstream model on the full dataset even once, leads to high-performing coresets for various downstream models, and is computable even for an unlabeled dataset. Through experiments on CIFAR-10/100, and ImageNet-1K, we show that our coresets outperform random subsets, even at high pruning rates, and achieve model performance comparable to or better than coresets found by training dynamics-based methods.

arxiv情報

著者 Akshay Mehra,Trisha Mittal,Subhadra Gopalakrishnan,Joshua Kimball
発行日 2025-06-04 17:26:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク