UNIDECOR: A Unified Deception Corpus for Cross-Corpus Deception Detection

要約

言葉による欺瞞は、行動パターンの理解、虚偽の証言の特定、オンラインコミュニケーションにおける欺瞞の検出など、さまざまな理由から心理学、法医学、計算言語学で研究されてきました。
研究分野間で動機が異なると、研究対象の領域の選択や欺瞞の概念化に違いが生じ、モデルを比較し、特定の言語に対して堅牢な欺瞞検出システムを構築することが困難になります。
この論文では、ソーシャル メディア レビュー、法廷証言、特定のトピックに関する意見表明、オンライン ストラテジー ゲームの欺瞞的な会話などの領域を含む、利用可能な英語の欺瞞データセットを調査することで、この状況を改善します。
これらのデータセットを単一の統合コーパスに統合します。
このリソースに基づいて、データセット間の欺瞞の言語的手がかりの相関分析を実行して違いを理解し、クロスドメインの一般化を達成するのが難しいことを示すクロスコーパスモデリング実験を実行します。
統合デセプション コーパス (UNIDECOR) は、https://www.ims.uni-stuttgart.de/data/unidecor から入手できます。

要約(オリジナル)

Verbal deception has been studied in psychology, forensics, and computational linguistics for a variety of reasons, like understanding behaviour patterns, identifying false testimonies, and detecting deception in online communication. Varying motivations across research fields lead to differences in the domain choices to study and in the conceptualization of deception, making it hard to compare models and build robust deception detection systems for a given language. With this paper, we improve this situation by surveying available English deception datasets which include domains like social media reviews, court testimonials, opinion statements on specific topics, and deceptive dialogues from online strategy games. We consolidate these datasets into a single unified corpus. Based on this resource, we conduct a correlation analysis of linguistic cues of deception across datasets to understand the differences and perform cross-corpus modeling experiments which show that a cross-domain generalization is challenging to achieve. The unified deception corpus (UNIDECOR) can be obtained from https://www.ims.uni-stuttgart.de/data/unidecor.

arxiv情報

著者 Aswathy Velutharambath,Roman Klinger
発行日 2023-06-05 12:23:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク