Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams

要約

インターネット上のテキスト データの急増は、機関や企業がサービスや製品に関する世論を監視するまたとない機会をもたらしています。
このようなデータが迅速に生成されることを考慮すると、多くの場合、順次到着する潜在的に無限のテキスト ストリームを処理するテキスト ストリーム マイニング設定の方が、従来のバッチ学習よりも適しています。
ストリーミング コンテキストでの高品質テキスト ベクトル化機能には、事前トレーニングされた言語モデルが一般的に使用されますが、コンセプト ドリフト、つまりデータ分布が時間の経過とともに変化し、モデルのパフォーマンスに悪影響を与える現象に適応するという課題に直面しています。
概念ドリフトの問題に対処するこの研究では、言語モデルを選択的に微調整してパフォーマンスの低下を軽減するように設計された 7 つのテキスト サンプリング方法の有効性を調査します。
4 つの異なる損失関数を使用して、SBERT モデルの微調整に対するこれらの方法の影響を正確に評価します。
マクロ F1 スコアと経過時間に焦点を当てた評価では、2 つのテキスト ストリーム データセットと増分 SVM 分類器を使用してパフォーマンスをベンチマークします。
私たちの調査結果は、ソフトマックス損失とバッチオールトリプレット損失がテキストストリーム分類に特に効果的であることを示し、サンプルサイズが大きいほど一般にマクロF1スコアの向上と相関があることを示しています。
特に、私たちが提案した WordPieceToken 比率サンプリング方法は、特定された損失関数のパフォーマンスを大幅に向上させ、ベースラインの結果を上回りました。

要約(オリジナル)

The proliferation of textual data on the Internet presents a unique opportunity for institutions and companies to monitor public opinion about their services and products. Given the rapid generation of such data, the text stream mining setting, which handles sequentially arriving, potentially infinite text streams, is often more suitable than traditional batch learning. While pre-trained language models are commonly employed for their high-quality text vectorization capabilities in streaming contexts, they face challenges adapting to concept drift – the phenomenon where the data distribution changes over time, adversely affecting model performance. Addressing the issue of concept drift, this study explores the efficacy of seven text sampling methods designed to selectively fine-tune language models, thereby mitigating performance degradation. We precisely assess the impact of these methods on fine-tuning the SBERT model using four different loss functions. Our evaluation, focused on Macro F1-score and elapsed time, employs two text stream datasets and an incremental SVM classifier to benchmark performance. Our findings indicate that Softmax loss and Batch All Triplets loss are particularly effective for text stream classification, demonstrating that larger sample sizes generally correlate with improved macro F1-scores. Notably, our proposed WordPieceToken ratio sampling method significantly enhances performance with the identified loss functions, surpassing baseline results.

arxiv情報

著者 Cristiano Mesquita Garcia,Alessandro Lameiras Koerich,Alceu de Souza Britto Jr,Jean Paul Barddal
発行日 2024-08-16 17:12:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク