Effective faking of verbal deception detection with target-aligned adversarial attacks

要約

背景: 言語の分析による欺瞞の検出は、人間の判断と自動化された機械学習の判断の両方を使用する有望な手段です。
どちらの形式の信頼性評価でも、欺瞞的な記述を真実であるかのように書き換える自動化された敵対的攻撃は、重大な脅威をもたらします。
方法: 人間と機械学習モデルの欺瞞検出タスクに、243 の真実の自伝物語と 262 の捏造された自伝物語のデータセットを使用しました。
大規模な言語モデルには、欺瞞的な記述を真実であるように見えるように書き換えるという使命がありました。
研究 1 では、欺瞞の判断を下した人間、または詳細度ヒューリスティックと 2 つの機械学習モデル (微調整された言語モデルと単純な N グラム モデル) を使用した人間が、欺瞞的なステートメントの元の変更または敵対的な変更を判断しました。
研究 2 では、変更のターゲットの調整を操作しました。つまり、ステートメントが人間とコンピューター モデルのどちらによって評価されるかに合わせて攻撃を調整しました。
結果: 敵対的な変更がそのターゲットと一致すると、人間 (d=-0.07 および d=-0.04) と機械の判断 (精度 51%) は偶然のレベルまで低下しました。
攻撃がターゲットと一致していない場合、人間のヒューリスティック判断 (d=0.30 および d=0.36) と機械学習の予測 (63 ~ 78%) の両方が偶然よりも大幅に優れていました。
結論: 簡単にアクセスできる言語モデルは、人間と機械学習モデルの両方による偽の欺瞞検出作業を効果的に支援できます。
人間とマシンに対する敵対的な変更に対する堅牢性は、そのターゲットの調整に依存します。
最後に、敵対的攻撃設計による欺瞞研究を進めることについての提案を述べます。

要約(オリジナル)

Background: Deception detection through analysing language is a promising avenue using both human judgments and automated machine learning judgments. For both forms of credibility assessment, automated adversarial attacks that rewrite deceptive statements to appear truthful pose a serious threat. Methods: We used a dataset of 243 truthful and 262 fabricated autobiographical stories in a deception detection task for humans and machine learning models. A large language model was tasked to rewrite deceptive statements so that they appear truthful. In Study 1, humans who made a deception judgment or used the detailedness heuristic and two machine learning models (a fine-tuned language model and a simple n-gram model) judged original or adversarial modifications of deceptive statements. In Study 2, we manipulated the target alignment of the modifications, i.e. tailoring the attack to whether the statements would be assessed by humans or computer models. Results: When adversarial modifications were aligned with their target, human (d=-0.07 and d=-0.04) and machine judgments (51% accuracy) dropped to the chance level. When the attack was not aligned with the target, both human heuristics judgments (d=0.30 and d=0.36) and machine learning predictions (63-78%) were significantly better than chance. Conclusions: Easily accessible language models can effectively help anyone fake deception detection efforts both by humans and machine learning models. Robustness against adversarial modifications for humans and machines depends on that target alignment. We close with suggestions on advancing deception research with adversarial attack designs.

arxiv情報

著者 Bennett Kleinberg,Riccardo Loconte,Bruno Verschuere
発行日 2025-01-10 13:42:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク