Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results

要約

ユーモアは人間の社会的行動、感情、認知の重要な要素です。
その自動理解により、より自然な人間と AI の相互作用が促進されます。
現在のユーモア検出方法はステージングされたデータのみに基づいているため、「現実世界」のアプリケーションには不十分です。
私たちは、約 11 時間の記録からなる新しいパッサウ-自発的サッカーコーチユーモア (Passau-SFCH) データセットを導入することで、この欠陥への対処に貢献しています。
Passau-SFCH データセットには、Martin の Humor Style Questionnaire で提案されているように、ユーモアの存在とその次元 (感情と方向性) について注釈が付けられています。
私たちは、事前学習済みの Transformer、畳み込みニューラル ネットワーク、専門家が設計した機能を使用して一連の実験を実施します。
自発的ユーモア認識に対する各モダリティ (テキスト、オーディオ、ビデオ) のパフォーマンスが分析され、それらの相補性が調査されます。
私たちの調査結果は、ユーモアとその感情の自動分析には顔の表情が最も有望である一方、ユーモアの方向性はテキストベースの機能を使用して最もよくモデル化できることを示唆しています。
さらに、意思決定レベル融合やマルチモーダル Transformer アプローチである MulT など、ユーモア認識に対するさまざまなマルチモーダル アプローチを実験します。
これに関連して、全体的に最良の結果をもたらす新しいマルチモーダル アーキテクチャを提案します。
最後に、コードを https://www.github.com/lc0197/passau-sfch で公開します。
Passau-SFCH データセットはリクエストに応じて入手可能です。

要約(オリジナル)

Humor is a substantial element of human social behavior, affect, and cognition. Its automatic understanding can facilitate a more naturalistic human-AI interaction. Current methods of humor detection have been exclusively based on staged data, making them inadequate for ‘real-world’ applications. We contribute to addressing this deficiency by introducing the novel Passau-Spontaneous Football Coach Humor (Passau-SFCH) dataset, comprising about 11 hours of recordings. The Passau-SFCH dataset is annotated for the presence of humor and its dimensions (sentiment and direction) as proposed in Martin’s Humor Style Questionnaire. We conduct a series of experiments employing pretrained Transformers, convolutional neural networks, and expert-designed features. The performance of each modality (text, audio, video) for spontaneous humor recognition is analyzed and their complementarity is investigated. Our findings suggest that for the automatic analysis of humor and its sentiment, facial expressions are most promising, while humor direction can be best modeled via text-based features. Further, we experiment with different multimodal approaches to humor recognition, including decision-level fusion and MulT, a multimodal Transformer approach. In this context, we propose a novel multimodal architecture that yields the best overall results. Finally, we make our code publicly available at https://www.github.com/lc0197/passau-sfch. The Passau-SFCH dataset is available upon request.

arxiv情報

著者 Lukas Christ,Shahin Amiriparian,Alexander Kathan,Niklas Müller,Andreas König,Björn W. Schuller
発行日 2024-07-08 10:50:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク