要約
既存の研究では、長い形式のビデオを拡張された短いビデオとして扱うことがよくありますが、私たちは人間の認知をより正確に反映する新しいアプローチを提案します。
このペーパーでは、BREASE: BRidging Episodes And SEmantics for Long-Form Video Understanding を紹介します。これは、エピソード記憶の蓄積をシミュレートしてアクション シーケンスをキャプチャし、ビデオ全体に分散されたセマンティックな知識でそれらを強化するモデルです。
私たちの研究は 2 つの重要な貢献をしています。まず、ミクロレベルからセミマクロレベルまで重要な表現を効率的に集約するエピソード COmpressor (ECO) を開発します。
次に、より広範なコンテキストに焦点を当て、関連するマクロレベルの情報を維持しながら特徴の次元を大幅に削減することで、これらの集約表現をセマンティック情報で強化する Semantics reTRiever (SeTR) を提案します。
広範な実験により、BREASE がゼロショット設定と完全監視設定の両方で複数の長時間ビデオ理解ベンチマークにわたって最先端のパフォーマンスを達成することが実証されました。
プロジェクト ページとコードは、https://joslefaure.github.io/assets/html/hermes.html にあります。
要約(オリジナル)
While existing research often treats long-form videos as extended short videos, we propose a novel approach that more accurately reflects human cognition. This paper introduces BREASE: BRidging Episodes And SEmantics for Long-Form Video Understanding, a model that simulates episodic memory accumulation to capture action sequences and reinforces them with semantic knowledge dispersed throughout the video. Our work makes two key contributions: First, we develop an Episodic COmpressor (ECO) that efficiently aggregates crucial representations from micro to semi-macro levels. Second, we propose a Semantics reTRiever (SeTR) that enhances these aggregated representations with semantic information by focusing on the broader context, dramatically reducing feature dimensionality while preserving relevant macro-level information. Extensive experiments demonstrate that BREASE achieves state-of-the-art performance across multiple long video understanding benchmarks in both zero-shot and fully-supervised settings. The project page and code are at: https://joslefaure.github.io/assets/html/hermes.html.
arxiv情報
著者 | Gueter Josmy Faure,Jia-Fong Yeh,Min-Hung Chen,Hung-Ting Su,Winston H. Hsu,Shang-Hong Lai |
発行日 | 2024-08-30 17:52:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google