要約
タイトル:動詞のアクション:ビデオ言語モデルにおける動詞の理解の改善
要約:
– 動詞の理解は、人々や物体が環境や時間を介してどのように相互作用するかをモデリングする上で重要である。
– CLIPに基づく最先端のビデオ言語モデルは、動詞の理解が制限され、名詞に大いに依存し、行動と時間的理解が必要な現実世界のビデオアプリケーションでのパフォーマンスが制限されることが示されている。
– 本研究では、新しいVerb-Focused Contrastive(VFC)フレームワークを提案することで、CLIPベースのビデオ言語モデルの動詞理解を改善しました。
– 「LLMsを活用して交差モーダル対比学習用のハードネガティブを作成し、ポジティブとネガティブのペアでコンセプトの発生をバランスさせるためのキャリブレーション戦略を提案する、
– 微細な動詞句のアラインメントロスを実施する
– 本手法は、動詞の理解に焦点を当てた3つの下流タスクにおけるゼロショットパフォーマンスの最先端の結果を達成します。
– これは、動詞の理解問題を緩和する方法を提案し、単にそれを強調するだけでない、最初の研究である。
要約(オリジナル)
Understanding verbs is crucial to modelling how people and objects interact with each other and the environment through space and time. Recently, state-of-the-art video-language models based on CLIP have been shown to have limited verb understanding and to rely extensively on nouns, restricting their performance in real-world video applications that require action and temporal understanding. In this work, we improve verb understanding for CLIP-based video-language models by proposing a new Verb-Focused Contrastive (VFC) framework. This consists of two main components: (1) leveraging pretrained large language models (LLMs) to create hard negatives for cross-modal contrastive learning, together with a calibration strategy to balance the occurrence of concepts in positive and negative pairs; and (2) enforcing a fine-grained, verb phrase alignment loss. Our method achieves state-of-the-art results for zero-shot performance on three downstream tasks that focus on verb understanding: video-text matching, video question-answering and video classification. To the best of our knowledge, this is the first work which proposes a method to alleviate the verb understanding problem, and does not simply highlight it.
arxiv情報
著者 | Liliane Momeni,Mathilde Caron,Arsha Nagrani,Andrew Zisserman,Cordelia Schmid |
発行日 | 2023-04-13 17:57:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI