要約
ビデオ会議は現在、仕事上でも非公式でも頻繁に行われるコミュニケーション手段ですが、対面での会話のような流動性や楽しさが欠けていることがよくあります。
この研究では、マルチモーダル機械学習を活用して、ビデオ会議におけるネガティブな経験の瞬間を予測します。
RoomReader コーパスから何千もの短いクリップをサンプリングし、音声の埋め込み、顔の動作、体の動きの特徴を抽出して、会話の流動性の低さ、楽しさの低さを特定し、会話イベント (相槌、中断、ギャップ) を分類するためのモデルをトレーニングしました。
当社の最高のモデルは、ホールドアウトビデオ会議セッションで最大 0.87 の ROC-AUC を達成し、ドメイン全般のオーディオ機能が最も重要であることが判明しました。
この研究は、マルチモーダル オーディオビデオ信号が高レベルの主観的な会話の結果を効果的に予測できることを実証しています。
さらに、これは、マルチモーダル機械学習を使用して、ユーザー エクスペリエンスが否定的な稀な瞬間を特定し、さらなる研究や緩和に役立てることができることを示し、ビデオ会議のユーザー エクスペリエンスに関する研究に貢献します。
要約(オリジナル)
Videoconferencing is now a frequent mode of communication in both professional and informal settings, yet it often lacks the fluidity and enjoyment of in-person conversation. This study leverages multimodal machine learning to predict moments of negative experience in videoconferencing. We sampled thousands of short clips from the RoomReader corpus, extracting audio embeddings, facial actions, and body motion features to train models for identifying low conversational fluidity, low enjoyment, and classifying conversational events (backchanneling, interruption, or gap). Our best models achieved an ROC-AUC of up to 0.87 on hold-out videoconference sessions, with domain-general audio features proving most critical. This work demonstrates that multimodal audio-video signals can effectively predict high-level subjective conversational outcomes. In addition, this is a contribution to research on videoconferencing user experience by showing that multimodal machine learning can be used to identify rare moments of negative user experience for further study or mitigation.
arxiv情報
著者 | Andrew Chang,Viswadruth Akkaraju,Ray McFadden Cogliano,David Poeppel,Dustin Freeman |
発行日 | 2025-01-07 18:34:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google