Can Language Models Laugh at YouTube Short-form Videos?

要約

ソーシャルネットワーク上の短い形式の面白いビデオが人気を集めているため、人間とのより良いコミュニケーションのためにAIモデルがビデオを理解することが求められています。
残念ながら、これまでのビデオ ユーモア データセットは、スピーチやホームコメディなどの特定の領域を対象としており、主に言葉による合図に焦点を当てていました。
私たちは、ExFunTube と呼ばれる、YouTube からの 10,000 個のマルチモーダルな面白いビデオのユーザー生成データセットをキュレートしています。
GPT-3.5 のビデオ フィルタリング パイプラインを使用して、ユーモアに寄与する言語要素と視覚要素の両方を検証します。
フィルタリング後、各ビデオにタイムスタンプと面白い瞬間のテキスト説明を付けます。
私たちの ExFunTube は、コンテンツのマルチモーダルな理解を必要とするさまざまな種類のユーモアを含む幅広い領域をビデオがカバーしているという点で、既存のデータセットとは異なります。
また、大規模言語モデル (LLM) のビデオ ユーモアの理解を最大限に高めるための、ゼロショットのビデオからテキストへのプロンプトを開発します。
自動スコア、論理的根拠の品質実験、および人間による評価を使用した 3 つの異なる評価方法を使用して、プロンプトによって LLM のユーモア説明能力が大幅に向上することを示しました。

要約(オリジナル)

As short-form funny videos on social networks are gaining popularity, it becomes demanding for AI models to understand them for better communication with humans. Unfortunately, previous video humor datasets target specific domains, such as speeches or sitcoms, and mostly focus on verbal cues. We curate a user-generated dataset of 10K multimodal funny videos from YouTube, called ExFunTube. Using a video filtering pipeline with GPT-3.5, we verify both verbal and visual elements contributing to humor. After filtering, we annotate each video with timestamps and text explanations for funny moments. Our ExFunTube is unique over existing datasets in that our videos cover a wide range of domains with various types of humor that necessitate a multimodal understanding of the content. Also, we develop a zero-shot video-to-text prompting to maximize video humor understanding of large language models (LLMs). With three different evaluation methods using automatic scores, rationale quality experiments, and human evaluations, we show that our prompting significantly improves LLMs’ ability for humor explanation.

arxiv情報

著者 Dayoon Ko,Sangho Lee,Gunhee Kim
発行日 2024-03-31 10:51:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク