Bridging Social Media and Search Engines: Dredge Words and the Detection of Unreliable Domains

要約

プロアクティブなコンテンツモデレートには、プラットフォームがWebサイトの信頼性を迅速かつ継続的に評価する必要があります。
ユーザーが信頼性の低いWebサイトに従う直接および間接パスを活用して、WebGraphと大規模なソーシャルメディアコンテキストの両方を統合するWebサイトの信頼性分類および発見システムを開発します。
さらに、信頼できないドメインが検索エンジンで高度にランク付けされているdr末の単語、用語、またはフレーズの概念を紹介し、ソーシャルメディアでの使用の最初の調査を提供します。
Webグラフとソーシャルメディアのコンテキストを組み合わせたグラフニューラルネットワークは、Webサイトの信頼性分類で最先端の結果に生成され、信頼できないドメインのトップKの識別を大幅に改善します。
さらに、ソーシャルメディアとオンラインコマースプラットフォームの両方との強力なつながりを強調して、Dredge Wordsの新しいデータセットをリリースします。

要約(オリジナル)

Proactive content moderation requires platforms to rapidly and continuously evaluate the credibility of websites. Leveraging the direct and indirect paths users follow to unreliable websites, we develop a website credibility classification and discovery system that integrates both webgraph and large-scale social media contexts. We additionally introduce the concept of dredge words, terms or phrases for which unreliable domains rank highly on search engines, and provide the first exploration of their usage on social media. Our graph neural networks that combine webgraph and social media contexts generate to state-of-the-art results in website credibility classification and significantly improves the top-k identification of unreliable domains. Additionally, we release a novel dataset of dredge words, highlighting their strong connections to both social media and online commerce platforms.

arxiv情報

著者 Evan M. Williams,Peter Carragher,Kathleen M. Carley
発行日 2025-02-24 16:40:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG, cs.SI パーマリンク