要約
聞き手は、注意を促したり、同意を表明するために、いわゆるバックチャンネルと呼ばれる短い間投詞を使用します。この動作を自動的に解析することは、人間の会話解析や対話型会話エージェントにとって重要である。現在、視覚行動からバックチャンネルを解析する最先端のアプローチでは、体のポーズに基づく特徴と顔の行動に基づく特徴の2種類を利用しています。一方、異なるデータソースからの入力を融合するための有効な手段として、変換ニューラルネットワークが確立されているが、バックチャネル解析への応用はまだ行われていない。本研究では、ポーズと顔情報に基づく自動バックチャンネル解析のためのマルチモーダル変換アーキテクチャの包括的な評価を実施する。本研究では、バックチャネルの検出と、バックチャネルで表現された一致を推定するタスクの両方を扱う。MultiMediate’22のバックチャンネル検出課題に対する評価では、1層の変換器アーキテクチャで66.4%の精度を達成し、従来の技術水準を上回った。さらに、2層トランスフォーマーアーキテクチャを用いると、バックチャネルで表現された合意量を推定するタスクにおいて、新しい技術水準(0.0604 MSE)を達成しました。
要約(オリジナル)
Listeners use short interjections, so-called backchannels, to signify attention or express agreement. The automatic analysis of this behavior is of key importance for human conversation analysis and interactive conversational agents. Current state-of-the-art approaches for backchannel analysis from visual behavior make use of two types of features: features based on body pose and features based on facial behavior. At the same time, transformer neural networks have been established as an effective means to fuse input from different data sources, but they have not yet been applied to backchannel analysis. In this work, we conduct a comprehensive evaluation of multi-modal transformer architectures for automatic backchannel analysis based on pose and facial information. We address both the detection of backchannels as well as the task of estimating the agreement expressed in a backchannel. In evaluations on the MultiMediate’22 backchannel detection challenge, we reach 66.4% accuracy with a one-layer transformer architecture, outperforming the previous state of the art. With a two-layer transformer architecture, we furthermore set a new state of the art (0.0604 MSE) on the task of estimating the amount of agreement expressed in a backchannel.
arxiv情報
著者 | Ahmed Amer,Chirag Bhuvaneshwara,Gowtham K. Addluri,Mohammed M. Shaik,Vedant Bonde,Philipp Müller |
発行日 | 2023-06-02 16:24:34+00:00 |
arxivサイト | arxiv_id(pdf) |