要約
この研究は、畳み込みニューラル ネットワーク (CNN) を使用して、Weibo からの 119,988 件のオリジナル ツイートのデータセットに対する感情分析という複雑なタスクに取り組み、自然言語処理 (NLP) への新しいアプローチを提供しました。
Baidu の PaddlePaddle AI プラットフォームから取得されたデータは、慎重に前処理され、トークン化され、感情ラベルに基づいて分類されました。
CNN ベースのモデルが利用され、特徴抽出に単語埋め込みを活用し、感情分類を実行するようにトレーニングされました。
このモデルは、テスト セットで約 0.73 のマクロ平均 F1 スコアを達成し、ポジティブ、ニュートラル、ネガティブなセンチメント全体でバランスの取れたパフォーマンスを示しました。
この調査結果は、感情分析タスクにおける CNN の有効性を強調しており、ソーシャル メディア分析、市場調査、政策研究における実際の応用に影響を及ぼします。
完全な実験コンテンツとコードは、さらなる研究と開発のために Kaggle データ プラットフォームで公開されています。
将来の作業には、リカレント ニューラル ネットワーク (RNN) やトランスフォーマーなどのさまざまなアーキテクチャの探索、または BERT などのより複雑な事前トレーニング済みモデルの使用を含めて、言語のニュアンスやコンテキストを理解するモデルの能力をさらに向上させることが含まれる可能性があります。
要約(オリジナル)
This study addressed the complex task of sentiment analysis on a dataset of 119,988 original tweets from Weibo using a Convolutional Neural Network (CNN), offering a new approach to Natural Language Processing (NLP). The data, sourced from Baidu’s PaddlePaddle AI platform, were meticulously preprocessed, tokenized, and categorized based on sentiment labels. A CNN-based model was utilized, leveraging word embeddings for feature extraction, and trained to perform sentiment classification. The model achieved a macro-average F1-score of approximately 0.73 on the test set, showing balanced performance across positive, neutral, and negative sentiments. The findings underscore the effectiveness of CNNs for sentiment analysis tasks, with implications for practical applications in social media analysis, market research, and policy studies. The complete experimental content and code have been made publicly available on the Kaggle data platform for further research and development. Future work may involve exploring different architectures, such as Recurrent Neural Networks (RNN) or transformers, or using more complex pre-trained models like BERT, to further improve the model’s ability to understand linguistic nuances and context.
arxiv情報
著者 | Yufei Xie,Rodolfo C. Raga Jr |
発行日 | 2023-07-13 03:02:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google