Employing Sentence Space Embedding for Classification of Data Stream from Fake News Domain

要約

表形式データは、ディープラーニングの最後の未征服の城と考えられていますが、データ ストリーム分類のタスクも同様に重要で要求の厳しい研究領域であると言われています。
時間的な制約により、ディープラーニング手法はこの分野への応用には最適なソリューションではないと想定されています。
しかし、近年の開発の進歩を考慮すると、一般的な手法グループ全体を除外するのはかなり無謀であるように思えます。
このため、次の論文では、テキストを離散デジタル信号の形式にエンコードできる文空間法を使用した自然言語データ ストリーム分類のアプローチを初めて紹介します。
これにより、画像分類専用の畳み込みディープ ネットワークを使用して、テキスト データに基づいてフェイク ニュースを認識するタスクを解決できるようになります。
現実の Fakeddit データセットに基づいて、提案されたアプローチが、汎化能力と時間計算量に基づくデータ ストリーム分類の最先端のアルゴリズムと比較されました。

要約(オリジナル)

Tabular data is considered the last unconquered castle of deep learning, yet the task of data stream classification is stated to be an equally important and demanding research area. Due to the temporal constraints, it is assumed that deep learning methods are not the optimal solution for application in this field. However, excluding the entire — and prevalent — group of methods seems rather rash given the progress that has been made in recent years in its development. For this reason, the following paper is the first to present an approach to natural language data stream classification using the sentence space method, which allows for encoding text into the form of a discrete digital signal. This allows the use of convolutional deep networks dedicated to image classification to solve the task of recognizing fake news based on text data. Based on the real-life Fakeddit dataset, the proposed approach was compared with state-of-the-art algorithms for data stream classification based on generalization ability and time complexity.

arxiv情報

著者 Paweł Zyblewski,Jakub Klikowski,Weronika Borek-Marciniec,Paweł Ksieniewicz
発行日 2024-07-15 15:23:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク