Multimodal Conversation Structure Understanding

要約

会話は通常、役割によって構成されます – 誰が話しているか、誰が演説されている、誰が聞いているのか – スピーカーの床または話題の焦点の変化とともに壊れるスレッドで展開します。
大規模な言語モデル(LLM)は、対話と推論において信じられないほどの機能を示していますが、特にマルチモーダルのマルチパーティ設定で、きめの細かい会話構造を理解する能力は未定です。
このギャップに対処するために、会話の役割の帰属(スピーカー、宛先、副参加者)と会話のスレッド(発話のリンクとクラスタリング)に焦点を当てた一連のタスクを紹介し、会話分析と社会言語学を利用します。
これらのタスクをサポートするために、スピーカーと返信関係、5,755人の宛先、および3,142人の副関与者のために4,398の注釈の人間の注釈付きデータセットを提示します。
データセットで一般的な視聴覚LLMSおよびビジョン言語モデルを評価し、実験結果は、マルチモーダルの会話構造の理解が依然として挑戦的であることを示唆しています。
最もパフォーマンスのあるオーディオビジュアルLLMは、特にスピーカーと宛先の認識で、すべてのメトリックのすべてのビジョン言語モデルよりも優れています。
ただし、会話参加者が匿名化されると、パフォーマンスは大幅に低下します。
クリップの会話参加者の数は、ロールアトリショナルパフォーマンスの最も強い負の予測因子であり、アコースティッククライアリティ(ピッチとスペクトル重心で測定)および検出されたフェースカバーは、正の関連性をもたらします。
この作業が、会話構造についてより効果的に推論できるマルチモーダルLLMの将来の評価と開発の基礎を築くことを願っています。

要約(オリジナル)

Conversations are usually structured by roles — who is speaking, who’s being addressed, and who’s listening — and unfold in threads that break with changes in speaker floor or topical focus. While large language models (LLMs) have shown incredible capabilities in dialogue and reasoning, their ability to understand fine-grained conversational structure, especially in multi-modal, multi-party settings, remains underexplored. To address this gap, we introduce a suite of tasks focused on conversational role attribution (speaker, addressees, side-participants) and conversation threading (utterance linking and clustering), drawing on conversation analysis and sociolinguistics. To support those tasks, we present a human annotated dataset of 4,398 annotations for speakers and reply-to relationship, 5,755 addressees, and 3,142 side-participants. We evaluate popular audio-visual LLMs and vision-language models on our dataset, and our experimental results suggest that multimodal conversational structure understanding remains challenging. The most performant audio-visual LLM outperforms all vision-language models across all metrics, especially in speaker and addressee recognition. However, its performance drops significantly when conversation participants are anonymized. The number of conversation participants in a clip is the strongest negative predictor of role-attribution performance, while acoustic clarity (measured by pitch and spectral centroid) and detected face coverage yield positive associations. We hope this work lays the groundwork for future evaluation and development of multimodal LLMs that can reason more effectively about conversation structure.

arxiv情報

著者 Kent K. Chang,Mackenzie Hanh Cramer,Anna Ho,Ti Ti Nguyen,Yilin Yuan,David Bamman
発行日 2025-06-02 17:10:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク