要約
ソーシャルメディアを介して国民の感情をモニタリングすることは、新型コロナウイルス感染症のパンデミックなどの健康危機の際に役立つ可能性があります。
ただし、従来の周波数ベースのデータ駆動型ニューラル ネットワーク ベースのアプローチでは、動的に進化する環境における言語の進化する性質により、新たに関連するコンテンツを見逃す可能性があります。
標準語や俗語の辞典など、人間が厳選した記号的な知識源は、進化する言語におけるソーシャル メディアのシグナルを高める可能性があります。
ニューラルネットワークと象徴的な知識源を統合する神経象徴的手法を導入し、新型コロナウイルス感染症に関連するメンタルヘルス関連のツイートの検出と解釈を強化します。
私たちの手法は、大規模なデータセット (約 120 億件のツイート、250 万件のサブレディット データ、および 70 万件のニュース記事) のコーパスと複数のナレッジ グラフを使用して評価されました。
このメソッドは進化する言語に動的に適応し、純粋なデータ駆動型モデルよりも優れたパフォーマンスを示し、F1 スコアは 92% を超えています。
このアプローチは、事前にトレーニングされた大規模言語モデル (LLM) を微調整するよりも、新しいデータへの適応が速く、計算需要が低いことも示しました。
この研究は、健康監視などの動的環境におけるテキストの解釈における神経象徴的手法の利点を実証しています。
要約(オリジナル)
Monitoring public sentiment via social media is potentially helpful during health crises such as the COVID-19 pandemic. However, traditional frequency-based, data-driven neural network-based approaches can miss newly relevant content due to the evolving nature of language in a dynamically evolving environment. Human-curated symbolic knowledge sources, such as lexicons for standard language and slang terms, can potentially elevate social media signals in evolving language. We introduce a neurosymbolic method that integrates neural networks with symbolic knowledge sources, enhancing the detection and interpretation of mental health-related tweets relevant to COVID-19. Our method was evaluated using a corpus of large datasets (approximately 12 billion tweets, 2.5 million subreddit data, and 700k news articles) and multiple knowledge graphs. This method dynamically adapts to evolving language, outperforming purely data-driven models with an F1 score exceeding 92\%. This approach also showed faster adaptation to new data and lower computational demands than fine-tuning pre-trained large language models (LLMs). This study demonstrates the benefit of neurosymbolic methods in interpreting text in a dynamic environment for tasks such as health surveillance.
arxiv情報
著者 | Vedant Khandelwal,Manas Gaur,Ugur Kursuncu,Valerie Shalin,Amit Sheth |
発行日 | 2024-11-11 17:41:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google