SEPSIS: I Can Catch Your Lies — A New Paradigm for Deception Detection

要約

欺瞞とは、意図的に情報を捻じ曲げることである。それは、人類社会の進化と深く結びついたニュアンスに富んだ社会的実践であり、さまざまな側面を持っている。本研究では、心理学のレンズを通して欺瞞の問題を探求し、欺瞞を「不作為の嘘」「任務の嘘」「影響の嘘」の3つの形態に分類する枠組みを採用する。本研究の主眼は、特に不作為の嘘のみを調査することにある。我々は、NLP技術を活用した欺瞞検出のための新しいフレームワークを提案する。我々は、有名な大規模フェイクニュースデータセットと、インドの有名なニュースメディアであるタイムズ・オブ・インディアのツイッターハンドルからスクレイピングされたニュースのヘッドラインを統合することで、876,784サンプルの注釈付きデータセットを作成した。各サンプルは、(i)省略のタイプ(憶測、偏見、歪曲、事実のように聞こえる、意見)、(ii)嘘の色(黒、白、その他)、(iii)そのような嘘の意図(影響を与える、その他)、(iv)嘘のトピック(政治、教育、宗教、その他)の4つのレイヤーでラベル付けされている。我々は、前述した欺瞞検出タスクに対処するために、細かく調整された言語モデルのデータ無し結合を活用する新しいマルチタスク学習パイプラインを提示する。我々の提案するモデルはF1スコア0.87を達成し、欺瞞的コンテンツの種類、色、意図、トピックの側面を含む全てのレイヤーにおいて高い性能を示した。最後に、我々の研究は、不作為の嘘とプロパガンダ手法の関係を探るものである。そのために綿密な分析を行い、説得力のある発見をした。例えば、私たちの分析は、負荷のかかる言葉と意見の間に有意な相関関係があることを明らかにし、それらの相互関連性に光を当てた。この分野でのさらなる研究を奨励するため、我々はモデルとデータセットをMITライセンスで公開する予定であり、オープンソース研究に有利なものにしている。

要約(オリジナル)

Deception is the intentional practice of twisting information. It is a nuanced societal practice deeply intertwined with human societal evolution, characterized by a multitude of facets. This research explores the problem of deception through the lens of psychology, employing a framework that categorizes deception into three forms: lies of omission, lies of commission, and lies of influence. The primary focus of this study is specifically on investigating only lies of omission. We propose a novel framework for deception detection leveraging NLP techniques. We curated an annotated dataset of 876,784 samples by amalgamating a popular large-scale fake news dataset and scraped news headlines from the Twitter handle of Times of India, a well-known Indian news media house. Each sample has been labeled with four layers, namely: (i) the type of omission (speculation, bias, distortion, sounds factual, and opinion), (ii) colors of lies(black, white, etc), and (iii) the intention of such lies (to influence, etc) (iv) topic of lies (political, educational, religious, etc). We present a novel multi-task learning pipeline that leverages the dataless merging of fine-tuned language models to address the deception detection task mentioned earlier. Our proposed model achieved an F1 score of 0.87, demonstrating strong performance across all layers including the type, color, intent, and topic aspects of deceptive content. Finally, our research explores the relationship between lies of omission and propaganda techniques. To accomplish this, we conducted an in-depth analysis, uncovering compelling findings. For instance, our analysis revealed a significant correlation between loaded language and opinion, shedding light on their interconnectedness. To encourage further research in this field, we will be making the models and dataset available with the MIT License, making it favorable for open-source research.

arxiv情報

著者 Anku Rani,Dwip Dalal,Shreya Gautam,Pankaj Gupta,Vinija Jain,Aman Chadha,Amit Sheth,Amitava Das
発行日 2023-12-01 02:13:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク