Re-ranking Using Large Language Models for Mitigating Exposure to Harmful Content on Social Media Platforms

要約

ソーシャルメディアプラットフォームは、機械学習(ML)と人工知能(AI)の推奨アルゴリズムを利用して、ユーザーエンゲージメントを最大化するため、有害なコンテンツに不注意な露出をもたらす可能性があります。
現在の節度の取り組みは、広範な人間が発表したデータで訓練された分類器に依存しており、スケーラビリティと闘い、新しい形態の害に適応しています。
これらの課題に対処するために、ゼロショットおよび少数のショット設定で大きな言語モデル(LLM)を使用した新しい再ランクアプローチを提案します。
私たちの方法は、コンテンツシーケンスを動的に評価および再ランク化し、広範なラベル付きデータを必要とせずに有害なコンテンツ曝露を効果的に軽減します。
従来のランキングメトリックに加えて、有害なコンテンツへの曝露を減らす際の再ランクの有効性を評価するために、2つの新しいメトリックも導入します。
3つのデータセット、3つのモデル、および3つの構成にわたる実験を通じて、LLMベースのアプローチが既存の独自のモデレートアプローチを大幅に上回り、HARM緩和のためのスケーラブルで適応性のあるソリューションを提供することを実証します。

要約(オリジナル)

Social media platforms utilize Machine Learning (ML) and Artificial Intelligence (AI) powered recommendation algorithms to maximize user engagement, which can result in inadvertent exposure to harmful content. Current moderation efforts, reliant on classifiers trained with extensive human-annotated data, struggle with scalability and adapting to new forms of harm. To address these challenges, we propose a novel re-ranking approach using Large Language Models (LLMs) in zero-shot and few-shot settings. Our method dynamically assesses and re-ranks content sequences, effectively mitigating harmful content exposure without requiring extensive labeled data. Alongside traditional ranking metrics, we also introduce two new metrics to evaluate the effectiveness of re-ranking in reducing exposure to harmful content. Through experiments on three datasets, three models and across three configurations, we demonstrate that our LLM-based approach significantly outperforms existing proprietary moderation approaches, offering a scalable and adaptable solution for harm mitigation.

arxiv情報

著者 Rajvardhan Oak,Muhammad Haroon,Claire Jo,Magdalena Wojcieszak,Anshuman Chhabra
発行日 2025-05-16 13:25:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.SI パーマリンク