要約
ソーシャルメディアは非常に人気のある情報源となっています。
この人気に伴い、生成された情報を分類できるシステムへの関心が高まっています。
この研究では、Twitter ユーザーの皮肉を検出するそのようなシステムの作成を試みます。
最近の研究では、TF-IDF およびトピック モデルとともに、語彙特徴、感情特徴、およびコントラストの重要性が強調されています。
徹底的な特徴選択プロセスに基づいて、結果として得られるモデルには、これらの領域の特定のサブ特徴が含まれています。
私たちのモデルは F1 スコア 0.84 に達し、ベースラインを上回っています。
語彙機能、特に TF-IDF がモデルに最も貢献しているのに対し、センチメントおよびトピック モデリング機能は全体的なパフォーマンスにあまり貢献していないことがわかりました。
最後に、さらなる探索のための複数の興味深く重要な道筋を強調します。
要約(オリジナル)
Social media has become a very popular source of information. With this popularity comes an interest in systems that can classify the information produced. This study tries to create such a system detecting irony in Twitter users. Recent work emphasize the importance of lexical features, sentiment features and the contrast herein along with TF-IDF and topic models. Based on a thorough feature selection process, the resulting model contains specific sub-features from these areas. Our model reaches an F1-score of 0.84, which is above the baseline. We find that lexical features, especially TF-IDF, contribute the most to our models while sentiment and topic modeling features contribute less to overall performance. Lastly, we highlight multiple interesting and important paths for further exploration.
arxiv情報
著者 | Tibor L. R. Krols,Marie Mortensen,Ninell Oldenburg |
発行日 | 2023-11-08 18:44:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google