要約
誤った情報はソーシャルメディア上で急速に拡散し、真実を混乱させ、潜在的に弱い立場にある人々を標的にします。
誤った情報による悪影響を効果的に軽減するには、X のコミュニティ ノートなどの軽減戦略を適用する前に、まず誤った情報を正確に検出する必要があります。これは現在手動プロセスです。
この研究では、誤情報の検出に知識ベースのアプローチを採用し、自然言語推論の 1 つと同様に問題をモデル化しています。
EffiARA アノテーション フレームワークは、アノテーター間およびアノテーター内の合意を利用して各アノテーターの信頼性を理解し、アノテーターの信頼性に基づいた分類のための大規模な言語モデルのトレーニングに影響を与えることを目的として導入されています。
EffiARA アノテーション フレームワークを評価する際に、ロシアとウクライナの紛争知識に基づく誤情報分類データセット (RUC-MCD) が開発され、一般公開されました。
この研究では、アノテーター間およびアノテーター内の合意とソフトラベルトレーニングの両方を利用して、アノテーターの信頼性を使用したサンプルの重み付けが最も効果的であることがわかりました。
Llama-3.2-1B を使用して達成された最高の分類パフォーマンスは、TwHIN-BERT-large を使用した場合のマクロ F1 が 0.757 および 0.740 でした。
要約(オリジナル)
Misinformation spreads rapidly on social media, confusing the truth and targetting potentially vulnerable people. To effectively mitigate the negative impact of misinformation, it must first be accurately detected before applying a mitigation strategy, such as X’s community notes, which is currently a manual process. This study takes a knowledge-based approach to misinformation detection, modelling the problem similarly to one of natural language inference. The EffiARA annotation framework is introduced, aiming to utilise inter- and intra-annotator agreement to understand the reliability of each annotator and influence the training of large language models for classification based on annotator reliability. In assessing the EffiARA annotation framework, the Russo-Ukrainian Conflict Knowledge-Based Misinformation Classification Dataset (RUC-MCD) was developed and made publicly available. This study finds that sample weighting using annotator reliability performs the best, utilising both inter- and intra-annotator agreement and soft-label training. The highest classification performance achieved using Llama-3.2-1B was a macro-F1 of 0.757 and 0.740 using TwHIN-BERT-large.
arxiv情報
著者 | Owen Cook,Charlie Grimshaw,Ben Wu,Sophie Dillon,Jack Hicks,Luke Jones,Thomas Smith,Matyas Szert,Xingyi Song |
発行日 | 2024-10-18 14:54:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google