Text Classification: Neural Networks VS Machine Learning Models VS Pre-trained Models

要約

テキストの分類は今日では非常に一般的なタスクであり、それを達成するために採用できる効率的な方法やアルゴリズムが数多くあります。
トランスフォーマーは、特に自然言語処理 (NLP) において深層学習の分野に革命をもたらし、コンピューター ビジョン、時系列分析などの他の領域にも急速に拡大しました。
トランスフォーマー モデルは、最初は機械翻訳のコンテキストで導入され、そのアーキテクチャはデータ シーケンス内の複雑な関係を捕捉するセルフ アテンション メカニズムに依存しています。
従来のニューラル ネットワーク (リカレント ニューラル ネットワークや多層パーセプトロンなど) よりも長距離の依存関係を効果的に処理できます。
この研究では、テキスト分類を実行するためのさまざまな技術間の比較を示します。
7 つの事前トレーニング済みモデル、3 つの標準ニューラル ネットワーク、および 3 つの機械学習モデルを考慮します。
標準的なニューラル ネットワークと機械学習モデルについては、TF-IDF と GloVe という 2 つの埋め込み手法も比較し、後者のパフォーマンスが一貫して前者を上回っています。
最後に、BERT や DistilBERT などの事前トレーニング済みモデルが常に標準モデル/アルゴリズムよりも優れたパフォーマンスを発揮するという実験結果を示します。

要約(オリジナル)

Text classification is a very common task nowadays and there are many efficient methods and algorithms that we can employ to accomplish it. Transformers have revolutionized the field of deep learning, particularly in Natural Language Processing (NLP) and have rapidly expanded to other domains such as computer vision, time-series analysis and more. The transformer model was firstly introduced in the context of machine translation and its architecture relies on self-attention mechanisms to capture complex relationships within data sequences. It is able to handle long-range dependencies more effectively than traditional neural networks (such as Recurrent Neural Networks and Multilayer Perceptrons). In this work, we present a comparison between different techniques to perform text classification. We take into consideration seven pre-trained models, three standard neural networks and three machine learning models. For standard neural networks and machine learning models we also compare two embedding techniques: TF-IDF and GloVe, with the latter consistently outperforming the former. Finally, we demonstrate the results from our experiments where pre-trained models such as BERT and DistilBERT always perform better than standard models/algorithms.

arxiv情報

著者 Christos Petridis
発行日 2024-12-30 15:44:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク