STF: Sentence Transformer Fine-Tuning For Topic Categorization With Limited Data

要約

今日、ツイートからのトピック分類は大きな注目を集めている。このような研究努力により、様々な分類システムが提案されている。しかし、ラベル付けされたデータの量が限られているため、性能指標が低く、大きな課題に直面している。我々は、事前に学習されたSentence Transformersモデルと微調整を活用して、ツイートからトピックを正確に分類するトピック検出システムであるSentence Transformers Fine-tuning (STF)を提案する。さらに、STFのパラメータを我々のトピック分類タスクに合わせて微調整するために、広範なパラメータ感度分析を実施し、最高のパフォーマンス結果を達成した。2つのベンチマークデータセットを用いた実験により、(1)提案STFはツイートのトピック分類に効果的に利用でき、最新の最先端アプローチを凌駕すること、(2)提案STFは、多くの最先端アプローチの限界である精度を達成するために膨大な量のラベル付きツイートを必要としないことが実証された。我々の主な貢献は、事前学習された文変換言語モデルを適用することで、ツイートのトピック分類において有望な結果を達成したことである。

要約(オリジナル)

Nowadays, topic classification from tweets attracts considerable research attention. Different classification systems have been suggested thanks to these research efforts. Nevertheless, they face major challenges owing to low performance metrics due to the limited amount of labeled data. We propose Sentence Transformers Fine-tuning (STF), a topic detection system that leverages pretrained Sentence Transformers models and fine-tuning to classify topics from tweets accurately. Moreover, extensive parameter sensitivity analyses were conducted to finetune STF parameters for our topic classification task to achieve the best performance results. Experiments on two benchmark datasets demonstrated that (1) the proposed STF can be effectively used for classifying tweet topics and outperforms the latest state-of-the-art approaches, and (2) the proposed STF does not require a huge amount of labeled tweets to achieve good accuracy, which is a limitation of many state-of-the-art approaches. Our main contribution is the achievement of promising results in tweet topic classification by applying pretrained sentence transformers language models.

arxiv情報

著者 Kheir Eddine Daouadi,Yaakoub Boualleg,Oussama Guehairia
発行日 2024-07-03 16:34:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク