The effect of stemming and lemmatization on Portuguese fake news text classification

要約

インターネットやスマートフォン、ソーシャルメディアの普及により、情報が素早く簡単に拡散し、世の中の情報の往来が増大している一方で、フェイクニュースの拡散が社会に悪影響を及ぼしているという問題があります。
情報の流れが大きくなり、欺瞞的な情報やフェイクニュースを広めようとする人も出てきています。
フェイクニュースの自動検出は、特にまだ包括的に研究されていない言語を扱う場合、言語学の問題に対処するために良い結果を得る必要があるため、困難な作業です。さらに、いくつかのテクニックは、良い結果を得るのに役立ちます。
テキスト データを扱う場合には結果が生じますが、この欺瞞的な情報を検出する動機は、どの情報が真実で信頼でき、どの情報がそうでないかを人々が知る必要があるという事実にあります。
この研究では、見出し語化やステミングなどの前処理方法がフェイク ニュースの分類に与える影響を示します。そのために、さまざまな前処理技術を適用するいくつかの分類子モデルを設計しました。
結果は、より良い結果を得るには前処理ステップが重要であること、ステミングと見出し語化技術は興味深い方法であり、より良い結果を達成するためにポルトガル語に焦点を当てた技術を開発するにはさらに研究する必要があることを示しています。

要約(オリジナル)

With the popularization of the internet, smartphones and social media, information is being spread quickly and easily way, which implies bigger traffic of information in the world, but there is a problem that is harming society with the dissemination of fake news. With a bigger flow of information, some people are trying to disseminate deceptive information and fake news. The automatic detection of fake news is a challenging task because to obtain a good result is necessary to deal with linguistics problems, especially when we are dealing with languages that not have been comprehensively studied yet, besides that, some techniques can help to reach a good result when we are dealing with text data, although, the motivation of detecting this deceptive information it is in the fact that the people need to know which information is true and trustful and which one is not. In this work, we present the effect the pre-processing methods such as lemmatization and stemming have on fake news classification, for that we designed some classifier models applying different pre-processing techniques. The results show that the pre-processing step is important to obtain betters results, the stemming and lemmatization techniques are interesting methods and need to be more studied to develop techniques focused on the Portuguese language so we can reach better results.

arxiv情報

著者 Lucca de Freitas Santos,Murilo Varges da Silva
発行日 2023-10-17 15:26:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク