Building an Effective Email Spam Classification Model with spaCy

要約

今日、人々は Gmail、Outlook、AOL メールなどの電子メール サービスを使用して、情報や公式の手紙を送信するためにできるだけ迅速に通信します。
スパムまたはジャンク メールは、この種の通信に対する大きな課題であり、通常、さまざまな人々に大量の情報を宣伝したり、損害を与えたり、盗んだりする目的でボットネットによって送信されます。
不要なスパム メールを毎日受信すると、受信トレイ フォルダーがいっぱいになります。
そのため、スパムの検出は基本的な課題であり、これまでクラスタリングとテキストの分類方法を使用してスパムを検出するために多くの作業が行われてきました。
この記事では、著者は spaCy 自然言語処理ライブラリと 3 つの機械学習 (ML) アルゴリズムの Naive Bayes (NB)、Decision Tree C45、および Multilayer Perceptron (MLP) を Python プログラミング言語で使用して、Gmail から収集されたスパム メールを検出しました。
サービス。
監視では、スパム検出における多層パーセプトロン (MLP) アルゴリズムの精度 (96%) が示されています。

要約(オリジナル)

Today, people use email services such as Gmail, Outlook, AOL Mail, etc. to communicate with each other as quickly as possible to send information and official letters. Spam or junk mail is a major challenge to this type of communication, usually sent by botnets with the aim of advertising, harming and stealing information in bulk to different people. Receiving unwanted spam emails on a daily basis fills up the inbox folder. Therefore, spam detection is a fundamental challenge, so far many works have been done to detect spam using clustering and text categorisation methods. In this article, the author has used the spaCy natural language processing library and 3 machine learning (ML) algorithms Naive Bayes (NB), Decision Tree C45 and Multilayer Perceptron (MLP) in the Python programming language to detect spam emails collected from the Gmail service. Observations show the accuracy rate (96%) of the Multilayer Perceptron (MLP) algorithm in spam detection.

arxiv情報

著者 Kazem Taghandiki
発行日 2023-03-15 17:41:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク