背景: 言葉による欺瞞の検出研究は物語に依存しており、一般に発言が真実であるか欺瞞的であると想定されています。
方法: 注釈付きの嘘が埋め込まれた 2,088 件の真実および欺瞞的な発言からなる新しいデータセットを収集しました。
結果: 微調整された言語モデル (Llama-3-8B) が真実の発言と嘘が埋め込まれた発言を 64% の精度で分類できることを示します。
典型的な欺瞞的発言は、2/3 の真実の情報と 1/3 の埋め込まれた嘘で構成されており、主に過去の個人的な経験に由来しており、真実の情報との言語的な違いは最小限です。
結論: この課題に対処し、言葉による欺瞞検出に埋め込まれた嘘に関する研究を促進するための新しいリソースとしてこのデータセットを提示します。
Background: Verbal deception detection research relies on narratives and commonly assumes statements as truthful or deceptive. A more realistic perspective acknowledges that the veracity of statements exists on a continuum with truthful and deceptive parts being embedded within the same statement. However, research on embedded lies has been lagging behind. Methods: We collected a novel dataset of 2,088 truthful and deceptive statements with annotated embedded lies. Using a within-subjects design, participants provided a truthful account of an autobiographical event. They then rewrote their statement in a deceptive manner by including embedded lies, which they highlighted afterwards and judged on lie centrality, deceptiveness, and source. Results: We show that a fined-tuned language model (Llama-3-8B) can classify truthful statements and those containing embedded lies with 64% accuracy. Individual differences, linguistic properties and explainability analysis suggest that the challenge of moving the dial towards embedded lies stems from their resemblance to truthful statements. Typical deceptive statements consisted of 2/3 truthful information and 1/3 embedded lies, largely derived from past personal experiences and with minimal linguistic differences with their truthful counterparts. Conclusion: We present this dataset as a novel resource to address this challenge and foster research on embedded lies in verbal deception detection.
著者 | Riccardo Loconte,Bennett Kleinberg |
発行日 | 2025-01-13 11:16:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google