要約
Deevisum(要約のための蒸留早期出口ビジョン言語モデル)を紹介します。これは、セグメントワイズビデオ要約のために設計された軽量で効率的でスケーラブルなビジョン言語モデルです。
テキストとオーディオ派の信号を組み合わせたマルチモーダルプロンプトを活用するDeevisumは、マルチステージの知識蒸留(MSKD)と早期出口(EE)を組み込んで、パフォーマンスと効率のバランスをとっています。
MSKDは、ベースライン蒸留(0.5%)よりも1.33%の絶対F1改善を提供しますが、EEはF1で1.3ポイント低下して推論時間を約21%削減します。
TVSumデータセットで評価された最高のモデルPaliGemma2 3B + MSKDは、61.1のF1スコアを達成し、より低い計算フットプリントを維持しながら、大幅に大きなモデルのパフォーマンスを競い合います。
コードと処理されたデータセットを公開して、さらなる調査をサポートします。
要約(オリジナル)
We introduce DEEVISum (Distilled Early Exit Vision language model for Summarization), a lightweight, efficient, and scalable vision language model designed for segment wise video summarization. Leveraging multi modal prompts that combine textual and audio derived signals, DEEVISum incorporates Multi Stage Knowledge Distillation (MSKD) and Early Exit (EE) to strike a balance between performance and efficiency. MSKD offers a 1.33% absolute F1 improvement over baseline distillation (0.5%), while EE reduces inference time by approximately 21% with a 1.3 point drop in F1. Evaluated on the TVSum dataset, our best model PaLI Gemma2 3B + MSKD achieves an F1 score of 61.1, competing the performance of significantly larger models, all while maintaining a lower computational footprint. We publicly release our code and processed dataset to support further research.
arxiv情報
著者 | Anas Anwarul Haq Khan,Utkarsh Verma,Prateek Chanda,Ganesh Ramakrishnan |
発行日 | 2025-04-30 17:37:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google