要約
大規模なデータセット内の機密コンテンツの検出は、共有および分析されたデータに有害な物質が含まれていないことを保証するために非常に重要です。
ただし、外部 API などの現在のモデレーション ツールには、カスタマイズの制限、さまざまな機密カテゴリにわたる精度、プライバシーの問題があります。
さらに、既存のデータセットとオープンソース モデルは主に有害な言語に焦点を当てており、薬物乱用や自傷行為などの他のデリケートなカテゴリの検出にはギャップが残されています。
この論文では、紛争言語、冒涜表現、露骨な性的内容、薬物関連コンテンツ、自傷行為、スパムという 6 つのデリケートなカテゴリにわたるソーシャル メディア コンテンツのモデレーションに合わせて調整された統合データセットを提案しました。
一貫した検索戦略とガイドラインに従ってデータを収集し、注釈を付けることで、これまでの焦点を絞った研究の欠点に対処します。
私たちの分析では、この新しいデータセットで大規模言語モデル (LLM) を微調整すると、LLaMA などのオープンな既製モデルや、さらには全体で 10 ~ 15% パフォーマンスが劣る独自の OpenAI モデルと比較して、検出パフォーマンスが大幅に向上することが実証されました。
。
この制限は、一般的なモデレーション API ではさらに顕著であり、特に特定の機密コンテンツ カテゴリに簡単に適合させることができません。
要約(オリジナル)
The detection of sensitive content in large datasets is crucial for ensuring that shared and analysed data is free from harmful material. However, current moderation tools, such as external APIs, suffer from limitations in customisation, accuracy across diverse sensitive categories, and privacy concerns. Additionally, existing datasets and open-source models focus predominantly on toxic language, leaving gaps in detecting other sensitive categories such as substance abuse or self-harm. In this paper, we put forward a unified dataset tailored for social media content moderation across six sensitive categories: conflictual language, profanity, sexually explicit material, drug-related content, self-harm, and spam. By collecting and annotating data with consistent retrieval strategies and guidelines, we address the shortcomings of previous focalised research. Our analysis demonstrates that fine-tuning large language models (LLMs) on this novel dataset yields significant improvements in detection performance compared to open off-the-shelf models such as LLaMA, and even proprietary OpenAI models, which underperform by 10-15% overall. This limitation is even more pronounced on popular moderation APIs, which cannot be easily tailored to specific sensitive content categories, among others.
arxiv情報
著者 | Dimosthenis Antypas,Indira Sen,Carla Perez-Almendros,Jose Camacho-Collados,Francesco Barbieri |
発行日 | 2024-12-06 13:41:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google