要約
感情分析が最も一般的な形式の教師なしテキスト分類は、かつては辞書に保存されているテキスト内の単語を数えることによって実行され、各単語を 1 つのクラスまたは中立的な単語として割り当てていました。
近年、これらの語彙ベースの手法は人気がなくなり、BERT などのエンコーダ専用モデルや GPT-4 などのデコーダ専用モデルを使用したゼロショット分類など、計算量の多い微調整手法に置き換えられました。
このホワイト ペーパーでは、代替アプローチである Lex2Sent を提案します。これは、古典的な語彙集メソッドを改良したものですが、GPU や外部ハードウェアを必要としません。
テキストを分類するには、埋め込みモデルをトレーニングして、文書の埋め込みと適切な語彙集の一部の埋め込みとの間の距離を決定します。
リサンプリングを採用することでバギング効果が生じ、分類のパフォーマンスが向上します。
私たちのモデルがlexicaよりも優れており、バイナリ感情分析のタスクにおいて高性能の少数ショット微調整アプローチの基礎を提供することを示します。
要約(オリジナル)
Unsupervised text classification, with its most common form being sentiment analysis, used to be performed by counting words in a text that were stored in a lexicon, which assigns each word to one class or as a neutral word. In recent years, these lexicon-based methods fell out of favor and were replaced by computationally demanding fine-tuning techniques for encoder-only models such as BERT and zero-shot classification using decoder-only models such as GPT-4. In this paper, we propose an alternative approach: Lex2Sent, which provides improvement over classic lexicon methods but does not require any GPU or external hardware. To classify texts, we train embedding models to determine the distances between document embeddings and the embeddings of the parts of a suitable lexicon. We employ resampling, which results in a bagging effect, boosting the performance of the classification. We show that our model outperforms lexica and provides a basis for a high performing few-shot fine-tuning approach in the task of binary sentiment analysis.
arxiv情報
著者 | Kai-Robin Lange,Jonas Rieger,Carsten Jentsch |
発行日 | 2024-10-22 15:18:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google