Audio-Visual Deception Detection: DOLOS Dataset and Parameter-Efficient Crossmodal Learning

要約

会話における欺瞞検出は、ビジネスにおける信頼性評価、マルチメディアによる不正防止、カスタムセキュリティなど、多くの分野で極めて重要な応用を持つ、挑戦的でありながら重要な課題である。にもかかわらず、欺瞞検出の研究は、高品質な欺瞞データセットの不足や、マルチモーダル特徴を効果的に学習することの難しさによって妨げられている。この問題に対処するために、我々は、豊富な欺瞞会話を含む最大のゲームショー欺瞞検出データセットであるDOLOSfootnote {`DOLOS’という名前はギリシャ神話に由来する}を紹介する。DOLOSには、213人の被験者が登場する1,675のビデオクリップが含まれ、オーディオビジュアル特徴アノテーションでラベル付けされている。様々な要因の影響を調べるために、訓練-テスト、継続時間、性別のプロトコルを提供する。本データセットのベンチマークを、既に提案されている欺瞞検出アプローチに対して行う。より少ないパラメータを微調整することで性能をさらに向上させるために、我々はパラメータ効率的クロスモーダル学習(PECL)を提案する。パラメータ効率的クロスモーダル学習(PECL)では、一様時間アダプタ(UT-Adapter)が変換器ベースのアーキテクチャにおける時間的注意を探索し、クロスモーダル融合モジュールであるプラグインオーディオビジュアル融合(PAVF)がオーディオビジュアル特徴からのクロスモーダル情報を結合する。また、DOLOSの豊富できめ細かいオーディオビジュアル注釈に基づき、マルチタスク学習を利用し、欺瞞とオーディオビジュアル特徴を同時に予測することで性能を向上させる。実験結果は、DOLOSデータセットの望ましい品質とPECLの有効性を実証している。DOLOSデータセットとソースコードはhttps://github.com/NMS05/Audio-Visual-Deception-Detection-DOLOS-Dataset-and-Parameter-Efficient-Crossmodal-Learning/tree/main。

要約(オリジナル)

Deception detection in conversations is a challenging yet important task, having pivotal applications in many fields such as credibility assessment in business, multimedia anti-frauds, and custom security. Despite this, deception detection research is hindered by the lack of high-quality deception datasets, as well as the difficulties of learning multimodal features effectively. To address this issue, we introduce DOLOS\footnote {The name “DOLOS’ comes from Greek mythology.}, the largest gameshow deception detection dataset with rich deceptive conversations. DOLOS includes 1,675 video clips featuring 213 subjects, and it has been labeled with audio-visual feature annotations. We provide train-test, duration, and gender protocols to investigate the impact of different factors. We benchmark our dataset on previously proposed deception detection approaches. To further improve the performance by fine-tuning fewer parameters, we propose Parameter-Efficient Crossmodal Learning (PECL), where a Uniform Temporal Adapter (UT-Adapter) explores temporal attention in transformer-based architectures, and a crossmodal fusion module, Plug-in Audio-Visual Fusion (PAVF), combines crossmodal information from audio-visual features. Based on the rich fine-grained audio-visual annotations on DOLOS, we also exploit multi-task learning to enhance performance by concurrently predicting deception and audio-visual features. Experimental results demonstrate the desired quality of the DOLOS dataset and the effectiveness of the PECL. The DOLOS dataset and the source codes are available at https://github.com/NMS05/Audio-Visual-Deception-Detection-DOLOS-Dataset-and-Parameter-Efficient-Crossmodal-Learning/tree/main.

arxiv情報

著者 Xiaobao Guo,Nithish Muthuchamy Selvaraj,Zitong Yu,Adams Wai-Kin Kong,Bingquan Shen,Alex Kot
発行日 2023-08-04 03:54:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク