A Comparative Study on TF-IDF feature Weighting Method and its Analysis using Unstructured Dataset

要約

テキスト分類は、テキストを関連するカテゴリに分類するプロセスであり、そのアルゴリズムは多くの自然言語処理 (NLP) の中核です。
用語頻度 – 逆文書頻度 (TF-IDF) と NLP は、テキスト分類で最も頻繁に使用される情報検索方法です。
非構造化データのテキスト分類のための特徴重み付け手法を調査および分析しました。
提案されたモデルでは、センチメント分析用に IMDB 映画レビューと Amazon Alexa レビュー データセットの 2 つの特徴 N-Grams と TF-IDF を考慮しました。
次に、最先端の分類器を使用してメソッドを検証しました。つまり、サポート ベクター マシン (SVM)、ロジスティック回帰、多項単純ベイズ (多項 NB)、ランダム フォレスト、デシジョン ツリー、k 近傍法 (KNN) です。
)。
これら 2 つの特徴抽出から、N-Gram に基づくのではなく TF-IDF 特徴を使用した特徴抽出が大幅に増加しました。
TF-IDF は、ランダム フォレスト分類器で最大の精度 (93.81%)、適合率 (94.20%)、再現率 (93.81%)、および F1 スコア (91.99%) の値を取得しました。

要約(オリジナル)

Text Classification is the process of categorizing text into the relevant categories and its algorithms are at the core of many Natural Language Processing (NLP). Term Frequency-Inverse Document Frequency (TF-IDF) and NLP are the most highly used information retrieval methods in text classification. We have investigated and analyzed the feature weighting method for text classification on unstructured data. The proposed model considered two features N-Grams and TF-IDF on the IMDB movie reviews and Amazon Alexa reviews dataset for sentiment analysis. Then we have used the state-of-the-art classifier to validate the method i.e., Support Vector Machine (SVM), Logistic Regression, Multinomial Naive Bayes (Multinomial NB), Random Forest, Decision Tree, and k-nearest neighbors (KNN). From those two feature extractions, a significant increase in feature extraction with TF-IDF features rather than based on N-Gram. TF-IDF got the maximum accuracy (93.81%), precision (94.20%), recall (93.81%), and F1-score (91.99%) value in Random Forest classifier.

arxiv情報

著者 Mamata Das,Selvakumar K.,P. J. A. Alphonse
発行日 2023-08-08 04:27:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク