SMILE: Multimodal Dataset for Understanding Laughter in Video with Language Models

要約

人工知能の最近の進歩にもかかわらず、ソーシャル インテリジェンスの構築は依然として課題です。
社会的シグナルの中でも、笑いは人間間の社会的相互作用中に発生する特徴的な表現の 1 つです。
この研究では、ビデオの笑いの背後にある理論的根拠を機械が理解するという新しい課題、ビデオ笑い推論に取り組みます。
人々が特定のビデオで笑う理由を説明するために、この新しいタスクとこのタスク用のデータセットを導入します。
私たちが提案するデータセット SMILE は、人々が笑う理由を説明するビデオ クリップと言語の説明で構成されています。
私たちは、テキストビデオ表現を備えた大規模言語モデル (LLM) の推論能力を活用することでベースラインを提案します。
実験では、私たちのベースラインが笑いのもっともらしい説明を生成できることを示しています。
他のビデオ理解タスクや実際のビデオを調査することで、ベースラインのスケーラビリティをさらに調査します。
データセット、コード、モデルのチェックポイントを https://github.com/postech-ami/SMILE-Dataset でリリースします。

要約(オリジナル)

Despite the recent advances of the artificial intelligence, building social intelligence remains a challenge. Among social signals, laughter is one of the distinctive expressions that occurs during social interactions between humans. In this work, we tackle a new challenge for machines to understand the rationale behind laughter in video, Video Laugh Reasoning. We introduce this new task to explain why people laugh in a particular video and a dataset for this task. Our proposed dataset, SMILE, comprises video clips and language descriptions of why people laugh. We propose a baseline by leveraging the reasoning capacity of large language models (LLMs) with textual video representation. Experiments show that our baseline can generate plausible explanations for laughter. We further investigate the scalability of our baseline by probing other video understanding tasks and in-the-wild videos. We release our dataset, code, and model checkpoints on https://github.com/postech-ami/SMILE-Dataset.

arxiv情報

著者 Lee Hyun,Kim Sung-Bin,Seungju Han,Youngjae Yu,Tae-Hyun Oh
発行日 2024-05-24 09:45:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク