要約
この論文では、テキスト分類タスク用に特別に設計された新しい半教師あり学習フレームワークを紹介し、限られたラベル付きサンプルを持つ膨大なデータセットの課題に効果的に対処します。
検索拡張生成 (RAG) から大規模言語モデル (LLM) の書き換えや従来の単語置換まで、マルチレベルの類似性に基づくデータ拡張技術を統合することで、インテリジェントな拡張パイプラインを構築しました。
このフレームワークは、クラスタリングによる代表的なランドマークの選択を革新的に採用しており、検索および書き換えプロセスの仲介者として機能し、拡張されたデータが元のデータセットと同様の分布を維持することを保証します。
経験的な結果は、100 カテゴリを超える複雑なテキスト文書分類シナリオでも、ロイターと Web of Science のデータセットで、私たちの方法がそれぞれ 95.41% と 82.43% という最先端の精度を達成することを示しています。
これらの発見は、テキスト分類タスクに対する半教師あり学習アプローチの有効性と幅広い適用可能性を強調しています。
要約(オリジナル)
This paper introduces a novel semi-supervised learning framework specifically designed for text classification tasks, effectively addressing the challenge of vast datasets with limited labeled examples. By integrating multi-level similarity based data augmentation techniques from Retrieval-Augmented Generation (RAG) to Large Language Model (LLM) rewriting and traditional word substitution-we constructed an intelligent augmentation pipeline. This framework innovatively employs the selection of representative landmarks through clustering, which serve as intermediaries in the retrieval and rewriting processes, ensuring that the augmented data maintains a distribution similar to the original dataset. Empirical results show that even in complex text document classification scenarios with over 100 categories, our method achieves state-of-the-art accuracies of 95.41% and 82.43% on the Reuters and Web of Science datasets, respectively. These findings highlight the effectiveness and broad applicability of our semi-supervised learning approach for text classification tasks.
arxiv情報
著者 | Shan Zhong,Jiahao Zeng,Yongxin Yu,Bohong Lin |
発行日 | 2024-12-13 10:11:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google