要約
ソーシャル イベント検出 (SED) は、ソーシャル ストリームから重要なイベントを特定することを目的としており、世論分析からリスク管理まで幅広い用途に使用できます。
近年、グラフ ニューラル ネットワーク (GNN) ベースのソリューションは最先端のパフォーマンスを達成しています。
ただし、GNN ベースの手法は、多くの場合、メッセージ間のノイズやエッジの欠落に悩まされ、学習されたメッセージ埋め込みの品質に影響を与えます。
さらに、これらのメソッドはトレーニング前にノードの埋め込みを静的に初期化するため、メッセージ テキストとリレーションから同時に学習する能力が制限されます。
この論文では、事前トレーニング済み言語モデル (PLM) に基づいた新しい観点からソーシャル イベント検出にアプローチし、RPLM_SED (ソーシャル イベント検出のためのリレーショナル プロンプトベースの事前トレーニング済み言語モデル) を紹介します。
まず、ソーシャル メッセージを多重関係シーケンスを持つメッセージ ペアに構築するための、新しいペアワイズ メッセージ モデリング戦略を提案します。
第二に、PLM を使用してマルチリレーショナル プロンプトとのメッセージ ペアからより包括的なメッセージ表現を学習する、新しいマルチリレーショナル プロンプト ベースのペアワイズ メッセージ学習メカニズムが提案されています。
第三に、新しいクラスタリング制約を設計して、クラスタ内のコンパクトさとクラスタ間の分散を強化することでエンコード プロセスを最適化し、メッセージ表現をより区別しやすくします。
3 つの現実世界のデータセットで RPLM_SED を評価し、RPLM_SED モデルがソーシャル イベント検出タスクのオフライン、オンライン、低リソース、ロングテール配信シナリオで最先端のパフォーマンスを達成することを実証しました。
要約(オリジナル)
Social Event Detection (SED) aims to identify significant events from social streams, and has a wide application ranging from public opinion analysis to risk management. In recent years, Graph Neural Network (GNN) based solutions have achieved state-of-the-art performance. However, GNN-based methods often struggle with noisy and missing edges between messages, affecting the quality of learned message embedding. Moreover, these methods statically initialize node embedding before training, which, in turn, limits the ability to learn from message texts and relations simultaneously. In this paper, we approach social event detection from a new perspective based on Pre-trained Language Models (PLMs), and present RPLM_SED (Relational prompt-based Pre-trained Language Models for Social Event Detection). We first propose a new pairwise message modeling strategy to construct social messages into message pairs with multi-relational sequences. Secondly, a new multi-relational prompt-based pairwise message learning mechanism is proposed to learn more comprehensive message representation from message pairs with multi-relational prompts using PLMs. Thirdly, we design a new clustering constraint to optimize the encoding process by enhancing intra-cluster compactness and inter-cluster dispersion, making the message representation more distinguishable. We evaluate the RPLM_SED on three real-world datasets, demonstrating that the RPLM_SED model achieves state-of-the-art performance in offline, online, low-resource, and long-tail distribution scenarios for social event detection tasks.
arxiv情報
著者 | Pu Li,Xiaoyan Yu,Hao Peng,Yantuan Xian,Linqin Wang,Li Sun,Jingyun Zhang,Philip S. Yu |
発行日 | 2024-04-12 06:23:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google