MimeQA: Towards Socially-Intelligent Nonverbal Foundation Models

要約

AIが人々の日常活動とより密接に統合されるようになるにつれて、日常生活で人間とシームレスに理解し、相互作用できる社会的に知的なAIがますます重要になっています。
ただし、AIの社会的推論における現在の作業はすべて、言語のみまたは言語を支配的なアプローチに依存しているため、ベンチマークおよびトレーニングモデルに依存しており、言語コミュニケーションが改善されているが、非言語的な社会的理解と闘っています。
この制限に対処するために、私たちは非言語的な社会的相互作用に富んだ新しいデータソース、Mimeビデオを活用します。
マイムは、話された言葉のないジェスチャーと動きを通して表現の芸術を指します。
YouTubeから8時間のビデオクリップを調達し、非言語的な社会的推論能力をプローブするように設計された慎重に注釈付きおよび検証された質問回答ペアを含む包括的なビデオ質問ベンチマークを開発することにより、Mimeqaと呼ばれる新しいデータセットを提供します。
Mimeqaを使用して、最先端のビデオ大手言語モデル(VLLM)を評価し、20〜30%の範囲の全体的な精度が低く、人間が86%を獲得していることがわかります。
私たちの分析は、VLLMが想像上のオブジェクトを接地できず、テキストプロンプトに依存しないことが多いことを明らかにしています。
私たちは、非言語的な人間の相互作用を解釈できる真の社会的知性を具体化するAIモデルでの将来の仕事を鼓舞したいと考えています。

要約(オリジナル)

As AI becomes more closely integrated with peoples’ daily activities, socially intelligent AI that can understand and interact seamlessly with humans in daily lives is increasingly important. However, current works in AI social reasoning all rely on language-only or language-dominant approaches to benchmark and training models, resulting in systems that are improving in verbal communication but struggle with nonverbal social understanding. To address this limitation, we tap into a novel data source rich in nonverbal social interactions — mime videos. Mimes refer to the art of expression through gesture and movement without spoken words, which presents unique challenges and opportunities in interpreting nonverbal social communication. We contribute a new dataset called MimeQA, obtained by sourcing 8 hours of videos clips from YouTube and developing a comprehensive video question-answering benchmark comprising 806 carefully annotated and verified question-answer pairs, designed to probe nonverbal social reasoning capabilities. Using MimeQA, we evaluate state-of-the-art video large language models (vLLMs) and find that they achieve low overall accuracy, ranging from 20-30%, while humans score 86%. Our analysis reveals that vLLMs often fail to ground imagined objects and over-rely on the text prompt while ignoring subtle nonverbal interactions. We hope to inspire future work in AI models that embody true social intelligence capable of interpreting non-verbal human interactions.

arxiv情報

著者 Hengzhi Li,Megan Tjandrasuwita,Yi R. Fung,Armando Solar-Lezama,Paul Pu Liang
発行日 2025-06-06 17:32:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク