要約
テキスト データの固有の特性により、分類タスクは複雑な問題になります。
教師なし学習および半教師あり学習とオートエンコーダー アーキテクチャの進歩により、いくつかの課題が解決されました。
しかし、依然として不均衡なテキスト分類タスクに苦戦しており、これは現実世界のアプリケーションでは一般的なシナリオであり、クラスの重複など、好ましくない特性を持つエンベディングが生成される傾向を示しています。
この論文では、クラス認識のコントラスト最適化とノイズ除去オートエンコーダーを組み合わせて活用することで、不均衡なテキスト分類タスクにうまく取り組み、現在の最先端のものよりも優れたパフォーマンスを達成できることを示します。
具体的には、私たちの提案は再構成損失と埋め込み空間における対照的なクラス分離を組み合わせ、生成された埋め込みの真実性と異なるクラスを分離するモデルの能力との間のより良いバランスを可能にします。
広範な従来型および最先端の競合手法と比較して、私たちの提案は、さまざまなテキスト データセットにわたってパフォーマンスが顕著に向上していることを示しています。
要約(オリジナル)
The unique characteristics of text data make classification tasks a complex problem. Advances in unsupervised and semi-supervised learning and autoencoder architectures addressed several challenges. However, they still struggle with imbalanced text classification tasks, a common scenario in real-world applications, demonstrating a tendency to produce embeddings with unfavorable properties, such as class overlap. In this paper, we show that leveraging class-aware contrastive optimization combined with denoising autoencoders can successfully tackle imbalanced text classification tasks, achieving better performance than the current state-of-the-art. Concretely, our proposal combines reconstruction loss with contrastive class separation in the embedding space, allowing a better balance between the truthfulness of the generated embeddings and the model’s ability to separate different classes. Compared with an extensive set of traditional and state-of-the-art competing methods, our proposal demonstrates a notable increase in performance across a wide variety of text datasets.
arxiv情報
著者 | Grigorii Khvatskii,Nuno Moniz,Khoa Doan,Nitesh V Chawla |
発行日 | 2024-10-29 16:34:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google