要約
テレコムサービスは、今日の社会の日常的なニーズの中核です。
多数のオンラインフォーラムとディスカッションプラットフォームが利用可能になると、テレコムプロバイダーは顧客の見解を探索して、顧客が直面する一般的な問題について学ぶことでサービスを改善できます。
自然言語処理(NLP)ツールを使用して、収集された無料テキストを処理できます。
このようなデータを操作する1つの方法は、ニューラルネットワークに基づいた多くの単語埋め込みモデルのいずれかを使用して、数値ベクトルとしてテキストを表すことです。
この調査では、通信顧客のレビューの新しいデータセットを使用して、異なる単語埋め込みアルゴリズムがテキスト分類プロセスにどのように影響するかを示す広範な調査を実行します。
Bert、Word2Vec、Doc2Vecなど、いくつかの最先端の単語埋め込み手法が考慮され、いくつかの分類アルゴリズムと組み合わされています。
機能エンジニアリングと次元削減の重要な問題に対処し、いくつかのPCAベースのアプローチが検討されています。
さらに、異なる単語の埋め込みで使用されるエネルギー消費が調査されます。
調査結果は、いくつかの単語埋め込みモデルが、精度、リコール、F1スコアの観点から一貫してより良いテキスト分類子につながる可能性があることを示しています。
特に、より挑戦的な分類タスクのために、BertとPCAを組み合わせて最高のパフォーマンスメトリックと際立っていました。
さらに、最初の主成分を使用して単語ベクトルを組み合わせるという提案されたPCAアプローチは、平均をとるという従来のアプローチに対するパフォーマンスの明確な利点を示しています。
要約(オリジナル)
Telecom services are at the core of today’s societies’ everyday needs. The availability of numerous online forums and discussion platforms enables telecom providers to improve their services by exploring the views of their customers to learn about common issues that the customers face. Natural Language Processing (NLP) tools can be used to process the free text collected. One way of working with such data is to represent text as numerical vectors using one of many word embedding models based on neural networks. This research uses a novel dataset of telecom customers’ reviews to perform an extensive study showing how different word embedding algorithms can affect the text classification process. Several state-of-the-art word embedding techniques are considered, including BERT, Word2Vec and Doc2Vec, coupled with several classification algorithms. The important issue of feature engineering and dimensionality reduction is addressed and several PCA-based approaches are explored. Moreover, the energy consumption used by the different word embeddings is investigated. The findings show that some word embedding models can lead to consistently better text classifiers in terms of precision, recall and F1-Score. In particular, for the more challenging classification tasks, BERT combined with PCA stood out with the highest performance metrics. Moreover, our proposed PCA approach of combining word vectors using the first principal component shows clear advantages in performance over the traditional approach of taking the average.
arxiv情報
著者 | Hesham Abdelmotaleb,Craig McNeile,Malgorzata Wojtys |
発行日 | 2025-04-18 12:26:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google