An Unsupervised Method for Estimating Class Separability of Datasets with Application to LLMs Fine-Tuning

要約

この論文では、データ多様体のトポロジー特性を利用して、ラベルを必要とせずにデータのクラス分離可能性を推定する教師なし手法を提案します。
この論文でいくつかのデータセットに対して実施された実験は、フィッシャー判別比 (FDR) などの教師付きメトリクスを使用した提案された方法によって推定されたクラス分離可能性と分類器の相互検証の間の明確な相関と一貫性を実証しています。これらの両方にはラベルが必要です。
これにより、半教師あり学習や変換学習など、ラベル付きデータとラベルなしデータの両方から学習することを目的とした学習パラダイムの実装が可能になります。
これは、ラベル付きデータが限られており、学習プロセスを強化するために使用できる比較的大規模なラベルなしデータセットがある場合に特に役立ちます。
提案された方法は、教師なし設定で埋め込み空間多様体のクラス分離性を監視することにより、自動停止基準を使用して言語モデルを微調整するために実装されます。
提案された方法論は最初に合成データで検証され、その結果は、提案された方法によって推定されたクラス分離可能性と FDR によって計算されたクラス分離可能性の間に明確な一貫性があることを示しています。
このメソッドは、公開データと内部データの両方にも実装されています。
結果は、提案された方法が、ラベルを必要とせずに、言語モデルの微調整をいつ停止するか続行するか、およびどの微調整反復が最大の分類パフォーマンスを達成することが期待されるかの決定を効果的に支援できることを示しています。
埋め込み多様体のクラス分離可能性の定量化。

要約(オリジナル)

This paper proposes an unsupervised method that leverages topological characteristics of data manifolds to estimate class separability of the data without requiring labels. Experiments conducted in this paper on several datasets demonstrate a clear correlation and consistency between the class separability estimated by the proposed method with supervised metrics like Fisher Discriminant Ratio~(FDR) and cross-validation of a classifier, which both require labels. This can enable implementing learning paradigms aimed at learning from both labeled and unlabeled data, like semi-supervised and transductive learning. This would be particularly useful when we have limited labeled data and a relatively large unlabeled dataset that can be used to enhance the learning process. The proposed method is implemented for language model fine-tuning with automated stopping criterion by monitoring class separability of the embedding-space manifold in an unsupervised setting. The proposed methodology has been first validated on synthetic data, where the results show a clear consistency between class separability estimated by the proposed method and class separability computed by FDR. The method has been also implemented on both public and internal data. The results show that the proposed method can effectively aid — without the need for labels — a decision on when to stop or continue the fine-tuning of a language model and which fine-tuning iteration is expected to achieve a maximum classification performance through quantification of the class separability of the embedding manifold.

arxiv情報

著者 Najah Ghalyan,Kostis Gourgoulias,Yash Satsangi,Sean Moran,Maxime Labonne,Joseph Sabelja
発行日 2023-10-02 16:54:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク