Estimating class separability of text embeddings with persistent homology

要約

この論文では、トポロジカルな観点からテキスト データセットのクラス分離可能性を推定する教師なし手法を紹介します。
永続的な相同性を使用して、トレーニング中に埋め込み多様体の進化を追跡することでクラスの分離可能性についてどのように情報を得ることができるかを示します。
より具体的には、この手法を適用して、トレーニング プロセスが埋め込みの分離性の向上を停止する時期を検出する方法を示します。
バイナリおよびマルチクラスのテキスト分類タスクにわたって検証された結果は、提案された方法のクラス分離可能性の推定値が教師付き方法から得られた推定値と一致していることを示しています。
このアプローチは、特にラベル付きデータが不足しているシナリオにおいて、分類タスクのための文トランスフォーマーの微調整を監視および改善するための新しい視点を提供します。
また、これらの量を追跡することで、トレーニングされた分類器の特性に対する追加の洞察がどのように得られるかについても説明します。

要約(オリジナル)

This paper introduces an unsupervised method to estimate the class separability of text datasets from a topological point of view. Using persistent homology, we demonstrate how tracking the evolution of embedding manifolds during training can inform about class separability. More specifically, we show how this technique can be applied to detect when the training process stops improving the separability of the embeddings. Our results, validated across binary and multi-class text classification tasks, show that the proposed method’s estimates of class separability align with those obtained from supervised methods. This approach offers a novel perspective on monitoring and improving the fine-tuning of sentence transformers for classification tasks, particularly in scenarios where labeled data is scarce. We also discuss how tracking these quantities can provide additional insights into the properties of the trained classifier.

arxiv情報

著者 Kostis Gourgoulias,Najah Ghalyan,Maxime Labonne,Yash Satsangi,Sean Moran,Joseph Sabelja
発行日 2024-06-18 15:43:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク