Seeing and hearing what has not been said; A multimodal client behavior classifier in Motivational Interviewing with interpretable fusion


動機づけ面接 (MI) は、コラボレーションを重視し、行動の変化を促す治療法です。
MI 会話の品質を評価するために、MISC コードを使用してクライアントの発話をチェンジ トーク、サステイン トーク、フォロー/ニュートラル トークのいずれかに分類できます。
MI での会話におけるチェンジトークの割合は治療結果と正の相関があるため、クライアントの発話を正確に分類することが不可欠です。
この論文では、テキスト、韻律、顔の表現力、身体表現力などのマルチモーダルな特徴を活用して、3 つの MISC クラス (チェンジ トーク、サステイン トーク、フォロー/ニュートラル トーク) を正確に区別する分類器を紹介します。
モデルをトレーニングするために、公開されている AnnoMI データセットにアノテーションを実行して、テキスト、音声、顔の表現力、体の表現力などのマルチモーダルな情報を収集します。
さらに、意思決定プロセスにおいて最も重要なモダリティを特定し、MI での会話中のさまざまなモダリティの相互作用に関する貴重な洞察を提供します。


Motivational Interviewing (MI) is an approach to therapy that emphasizes collaboration and encourages behavioral change. To evaluate the quality of an MI conversation, client utterances can be classified using the MISC code as either change talk, sustain talk, or follow/neutral talk. The proportion of change talk in a MI conversation is positively correlated with therapy outcomes, making accurate classification of client utterances essential. In this paper, we present a classifier that accurately distinguishes between the three MISC classes (change talk, sustain talk, and follow/neutral talk) leveraging multimodal features such as text, prosody, facial expressivity, and body expressivity. To train our model, we perform annotations on the publicly available AnnoMI dataset to collect multimodal information, including text, audio, facial expressivity, and body expressivity. Furthermore, we identify the most important modalities in the decision-making process, providing valuable insights into the interplay of different modalities during a MI conversation.


著者 Lucie Galland,Catherine Pelachaud,Florian Pecune
発行日 2023-09-27 08:30:20+00:00
arxiv_id(pdf)

