From Millions of Tweets to Actionable Insights: Leveraging LLMs for User Profiling

要約

コンテンツ分析によるソーシャルメディアのユーザープロファイリングは、誤った情報検出、エンゲージメント予測、ヘイトスピーチモニタリング、ユーザーの動作モデリングなどのタスクにとって重要です。
ただし、ツイートの要約、属性ベースのプロファイリング、潜在的な表現学習などの既存のプロファイリング手法は、大きな制限に直面しています。多くの場合、転送性がなく、解釈不可能な機能を生成する、大きなラベル付きデータセットを必要とするか、適応性を制限する剛性のある定義済みのカテゴリに依存します。
ドメインを定義するステートメントを活用する新しい大規模言語モデル(LLM)ベースのアプローチを導入します。これは、プロファイリングの基礎としてドメインの重要な柱を概説する重要な特性として機能します。
2段階の方法では、最初にドメイン固有のナレッジベースを使用した半監視フィルタリングを採用し、次に抽象的(合成された説明)と抽出(代表的なツイート選択)ユーザープロファイルの両方を生成します。
最小限の人間の検証でLLMSの固有の知識を活用することにより、私たちのアプローチはドメイン全体で適応可能になり、大きなラベル付きデータセットの必要性を減らします。
私たちの方法は、解釈可能な自然言語ユーザープロファイルを生成し、LLMSの推論と下流のソーシャルネットワークタスクの知識機能をロック解除するスケールに広範なユーザーデータを凝縮します。
ペルシャの政治Twitter(X)データセットと、人間の検証を備えたLLMベースの評価フレームワークを提供します。
実験結果は、私たちの方法が最先端のLLMベースおよび従来の方法を9.8%上回ることを示しており、柔軟で適応性のある解釈可能なユーザープロファイルの作成における有効性を示しています。

要約(オリジナル)

Social media user profiling through content analysis is crucial for tasks like misinformation detection, engagement prediction, hate speech monitoring, and user behavior modeling. However, existing profiling techniques, including tweet summarization, attribute-based profiling, and latent representation learning, face significant limitations: they often lack transferability, produce non-interpretable features, require large labeled datasets, or rely on rigid predefined categories that limit adaptability. We introduce a novel large language model (LLM)-based approach that leverages domain-defining statements, which serve as key characteristics outlining the important pillars of a domain as foundations for profiling. Our two-stage method first employs semi-supervised filtering with a domain-specific knowledge base, then generates both abstractive (synthesized descriptions) and extractive (representative tweet selections) user profiles. By harnessing LLMs’ inherent knowledge with minimal human validation, our approach is adaptable across domains while reducing the need for large labeled datasets. Our method generates interpretable natural language user profiles, condensing extensive user data into a scale that unlocks LLMs’ reasoning and knowledge capabilities for downstream social network tasks. We contribute a Persian political Twitter (X) dataset and an LLM-based evaluation framework with human validation. Experimental results show our method significantly outperforms state-of-the-art LLM-based and traditional methods by 9.8%, demonstrating its effectiveness in creating flexible, adaptable, and interpretable user profiles.

arxiv情報

著者 Vahid Rahimzadeh,Ali Hamzehpour,Azadeh Shakery,Masoud Asadpour
発行日 2025-05-09 16:51:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.SI, I.2.7 パーマリンク