A Temporal Psycholinguistics Approach to Identity Resolution of Social Media Users

要約

この論文では、プラットフォーム上の投稿のトピック、感情、タイミングを使用して、ソーシャル メディア プラットフォーム全体でのアイデンティティ解決のアプローチを提案します。
Disqus と Twitter から約 5,000 件のプロフィールの公開投稿を収集した後、投稿を分析して 2 つのプラットフォーム全体でプロフィールを一致させます。
私たちは分析において時間的方法と非時間的方法の両方を追求します。
どちらのアプローチが決定的に優れているというわけではありませんが、一般に時間的アプローチの方がパフォーマンスが優れています。
時間ウィンドウ サイズがシフト量よりも結果に大きく影響することがわかりました。
一方、センチメント分析では、おそらくデータ抽出方法に欠陥があるため、センチメントを含めてもほとんど違いがないことが示されています。
また、距離ベースの報酬と罰に焦点を当てたスコアリング モデルも実験し、収集したコーパスの 2525 件中 24.198% の精度と 158.217 という平均順位を達成しました。
今後の作業には、トピックごとのセンチメントを評価することによるセンチメント分析の改良、追加フェーズによる時間分析の拡張、重み調整と報酬の修正によるスコアリング モデルの改善が含まれます。

要約(オリジナル)

In this thesis, we propose an approach to identity resolution across social media platforms using the topics, sentiments, and timings of the posts on the platforms. After collecting the public posts of around 5000 profiles from Disqus and Twitter, we analyze their posts to match their profiles across the two platforms. We pursue both temporal and non-temporal methods in our analysis. While neither approach proves definitively superior, the temporal approach generally performs better. We found that the temporal window size influences results more than the shifting amount. On the other hand, our sentiment analysis shows that the inclusion of sentiment makes little difference, probably due to flawed data extraction methods. We also experimented with a distance-based reward-and-punishment-focused scoring model, which achieved an accuracy of 24.198% and an average rank of 158.217 out of 2525 in our collected corpus. Future work includes refining sentiment analysis by evaluating sentiments per topic, extending temporal analysis with additional phases, and improving the scoring model through weight adjustments and modified rewards.

arxiv情報

著者 Md Touhidul Islam
発行日 2024-07-29 13:00:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク