ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media

要約

事実確認と忠実な要約の分野で、参考記事に由来する情報の虚偽表示に対処するために、かなりの進歩が見られました。
しかし、関連するニュース記事内の情報を操作するソーシャルメディア投稿の特定という、未対処の側面が残っています。
このような投稿には個人的な意見が蔓延しているため、この作業は大きな課題となります。
我々は、ソーシャル メディア上のニュースの操作を特定するという新しいタスクを提示します。このタスクは、ソーシャル メディアの投稿における操作を検出し、操作または挿入された情報を特定することを目的としています。
このタスクを研究するために、私たちはデータ収集スキーマを提案し、3.6K のツイートと対応する記事のペアで構成される ManiTweet と呼ばれるデータセットを厳選しました。
私たちの分析では、このタスクは非常に困難であり、大規模言語モデル (LLM) では満足のいくパフォーマンスが得られないことが示されています。
さらに、ManiTweet データセット上で LLM を大幅に上回る、シンプルでありながら効果的な基本モデルを開発しました。
最後に、私たちは人間が書いたツイートの探索的分析を実施し、操作とニュース記事の領域および事実性との間の興味深い関連性を明らかにするとともに、操作された文章が報道機関の主要なストーリーや結果を要約している可能性が高いことを明らかにしました。

要約(オリジナル)

Considerable advancements have been made to tackle the misrepresentation of information derived from reference articles in the domains of fact-checking and faithful summarization. However, an unaddressed aspect remains – the identification of social media posts that manipulate information within associated news articles. This task presents a significant challenge, primarily due to the prevalence of personal opinions in such posts. We present a novel task, identifying manipulation of news on social media, which aims to detect manipulation in social media posts and identify manipulated or inserted information. To study this task, we have proposed a data collection schema and curated a dataset called ManiTweet, consisting of 3.6K pairs of tweets and corresponding articles. Our analysis demonstrates that this task is highly challenging, with large language models (LLMs) yielding unsatisfactory performance. Additionally, we have developed a simple yet effective basic model that outperforms LLMs significantly on the ManiTweet dataset. Finally, we have conducted an exploratory analysis of human-written tweets, unveiling intriguing connections between manipulation and the domain and factuality of news articles, as well as revealing that manipulated sentences are more likely to encapsulate the main story or consequences of a news outlet.

arxiv情報

著者 Kung-Hsiang Huang,Hou Pong Chan,Kathleen McKeown,Heng Ji
発行日 2023-05-23 16:40:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク