Estimating Class Separability of Datasets Using Persistent Homology with Application to LLM Fine-Tuning

要約

この論文では、テキストの文変換埋め込みのトポロジー的特徴を検査することによって、ラベルなしテキスト データセットのクラス分離可能性を推定する方法を提案します。
実施された実験には、バイナリとマルチクラスの両方のケースが含まれ、バランスのとれたシナリオと不均衡なシナリオが含まれます。
この結果は、提案された方法と、ソーントン法やロジスティック回帰分類器の AUC スコアなどの他の分離性および分類メトリクス、および教師なし方法との間の明確な相関関係とより良い一貫性を示しています。
最後に、提案された方法が言語モデル分類器を微調整するための停止基準の一部となり得ることを経験的に示します。
各トレーニング反復後に埋め込み空間のクラス分離性を監視することで、追加のラベルを使用せずに、トレーニング プロセスが埋め込みの分離性の向上を停止する時期を検出できます。

要約(オリジナル)

This paper proposes a method to estimate the class separability of an unlabeled text dataset by inspecting the topological characteristics of sentence-transformer embeddings of the text. Experiments conducted involve both binary and multi-class cases, with balanced and imbalanced scenarios. The results demonstrate a clear correlation and a better consistency between the proposed method and other separability and classification metrics, such as Thornton’s method and the AUC score of a logistic regression classifier, as well as unsupervised methods. Finally, we empirically show that the proposed method can be part of a stopping criterion for fine-tuning language-model classifiers. By monitoring the class separability of the embedding space after each training iteration, we can detect when the training process stops improving the separability of the embeddings without using additional labels.

arxiv情報

著者 Najah Ghalyan,Kostis Gourgoulias,Yash Satsangi,Sean Moran,Maxime Labonne,Joseph Sabelja
発行日 2023-10-25 17:06:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク