This Paper Had the Smartest Reviewers — Flattery Detection Utilising an Audio-Textual Transformer-Based Approach

要約

お世辞は人間のコミュニケーションの重要な側面であり、戦略的な褒め言葉や賞賛を通じて社会的な絆を促進し、認識を形成し、行動に影響を与え、話の力を活用して信頼関係を効果的に構築します。
したがって、その自動検出により、人間と AI の相互作用の自然性を高めることができます。
このニーズを満たすために、20 時間の音声で構成される新しい音声テキスト データセットを提示し、お世辞を自動検出するための機械学習モデルをトレーニングします。
特に、音声モダリティには事前トレーニング済みの AST、Wav2Vec2、および Whisper モデルを使用し、テキスト モダリティには RoBERTa テキスト分類器と組み合わせた Whisper TTS モデルを使用します。
次に、テキストと音声表現を組み合わせてマルチモーダル分類器を構築します。
目に見えないテスト データの評価では、音声のみの実験で重み付けなしの平均再現率スコアが 82.46%、テキストのみの実験で 85.97%、マルチモーダル アプローチを使用した場合は 87.16% に達し、有望な結果が示されました。

要約(オリジナル)

Flattery is an important aspect of human communication that facilitates social bonding, shapes perceptions, and influences behavior through strategic compliments and praise, leveraging the power of speech to build rapport effectively. Its automatic detection can thus enhance the naturalness of human-AI interactions. To meet this need, we present a novel audio textual dataset comprising 20 hours of speech and train machine learning models for automatic flattery detection. In particular, we employ pretrained AST, Wav2Vec2, and Whisper models for the speech modality, and Whisper TTS models combined with a RoBERTa text classifier for the textual modality. Subsequently, we build a multimodal classifier by combining text and audio representations. Evaluation on unseen test data demonstrates promising results, with Unweighted Average Recall scores reaching 82.46% in audio-only experiments, 85.97% in text-only experiments, and 87.16% using a multimodal approach.

arxiv情報

著者 Lukas Christ,Shahin Amiriparian,Friederike Hawighorst,Ann-Kathrin Schill,Angelo Boutalikakis,Lorenz Graf-Vlachy,Andreas König,Björn W. Schuller
発行日 2024-06-25 15:57:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク