Efficient In-Context Learning in Vision-Language Models for Egocentric Videos

要約

テキストのみの大規模言語モデル (LLM) の最近の進歩により、新しいタスクに適応するためのコンテキスト内学習の利点がいくつかのデモンストレーションで明らかになりました。
ただし、大量の自然主義的な視覚言語データを使用して、コンテキスト内学習を大規模視覚言語モデル (VLM) に拡張することは、データ収集コストが高いため、特に自己中心的なビデオの場合、成功が限られています。
$\mathbb{E}$fficient $\mathbb{I}$n-context $\mathbb{L}$earning on $\mathbb{E}$gocentric $\mathbb{V}$ideos (
$\mathbb{EILEV}$)、大規模で自然な自己中心的なビデオ データセットを必要とせずに、自己中心的なビデオの VLM でコンテキスト内学習を引き出します。
$\mathbb{EILEV}$ には、ビデオ クリップやナレーションが織り込まれたコンテキストをモデルが処理できるようにするためのアーキテクチャおよびトレーニング データの適応、類似した動詞や名詞のクラスターによるコンテキスト内の例のサンプリング、偏った周辺分布を持つデータの使用が含まれます。
使用頻度の低い動詞や名詞、同音異義語や同義語のロングテール。
私たちの評価によると、$\mathbb{EILEV}$ でトレーニングされたモデルは、コンテキスト内学習において、膨大な量の自然主義的データでトレーニングされた大規模な VLM よりも優れたパフォーマンスを発揮します。
さらに、配布外だけでなく、コンテキスト内学習を介して斬新で珍しい自己中心的なビデオやテキストにも一般化でき、費用対効果の高いトレーニングと迅速な導入後の適応性を必要とするアプリケーションの可能性を実証します。
私たちのコードとデモは \url{https://github.com/yukw777/EILEV} で入手できます。

要約(オリジナル)

Recent advancements in text-only large language models (LLMs) have highlighted the benefit of in-context learning for adapting to new tasks with a few demonstrations. However, extending in-context learning to large vision-language models (VLMs) using a huge amount of naturalistic vision-language data has shown limited success, particularly for egocentric videos, due to high data collection costs. We propose a novel training method $\mathbb{E}$fficient $\mathbb{I}$n-context $\mathbb{L}$earning on $\mathbb{E}$gocentric $\mathbb{V}$ideos ($\mathbb{EILEV}$), which elicits in-context learning in VLMs for egocentric videos without requiring massive, naturalistic egocentric video datasets. $\mathbb{EILEV}$ involves architectural and training data adaptations to allow the model to process contexts interleaved with video clips and narrations, sampling of in-context examples with clusters of similar verbs and nouns, use of data with skewed marginal distributions with a long tail of infrequent verbs and nouns, as well as homonyms and synonyms. Our evaluations show that $\mathbb{EILEV}$-trained models outperform larger VLMs trained on a huge amount of naturalistic data in in-context learning. Furthermore, they can generalize to not only out-of-distribution, but also novel, rare egocentric videos and texts via in-context learning, demonstrating potential for applications requiring cost-effective training, and rapid post-deployment adaptability. Our code and demo are available at \url{https://github.com/yukw777/EILEV}.

arxiv情報

著者 Keunwoo Peter Yu,Zheyuan Zhang,Fengyuan Hu,Joyce Chai
発行日 2023-11-29 15:52:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク