要約
ロボット工学、自律走行、拡張現実、そして多くの具現化されたコンピュータビジョンアプリケーションは、リアルタイムで展開されるユーザー定義のイベントに素早く反応しなければならない。我々は、マルチモーダルビデオ理解のための新しいタスク、ストリーミング検出(Streaming Detection of Queried Event Start:SDQES)を提案することで、このような設定に対処する。SDQESの目標は、自然言語クエリによって記述された複雑なイベントの開始を、高精度かつ低遅延で特定することである。我々は、Ego4Dデータセットに基づく新しいベンチマークと、エゴセントリックビデオ設定における多様なイベントのストリーミングマルチモーダル検出を研究するための新しいタスク固有のメトリックを導入する。NLPやビデオタスクのパラメータ効率的な微調整手法にヒントを得て、画像からビデオへの転送学習を可能にするアダプタベースのベースラインを提案し、効率的なオンラインビデオモデリングを可能にする。3つの視覚言語バックボーンと3つのアダプタアーキテクチャを、ショートクリップとトリミングなしのビデオ設定の両方で評価する。
要約(オリジナル)
Robotics, autonomous driving, augmented reality, and many embodied computer vision applications must quickly react to user-defined events unfolding in real time. We address this setting by proposing a novel task for multimodal video understanding-Streaming Detection of Queried Event Start (SDQES). The goal of SDQES is to identify the beginning of a complex event as described by a natural language query, with high accuracy and low latency. We introduce a new benchmark based on the Ego4D dataset, as well as new task-specific metrics to study streaming multimodal detection of diverse events in an egocentric video setting. Inspired by parameter-efficient fine-tuning methods in NLP and for video tasks, we propose adapter-based baselines that enable image-to-video transfer learning, allowing for efficient online video modeling. We evaluate three vision-language backbones and three adapter architectures on both short-clip and untrimmed video settings.
arxiv情報
著者 | Cristobal Eyzaguirre,Eric Tang,Shyamal Buch,Adrien Gaidon,Jiajun Wu,Juan Carlos Niebles |
発行日 | 2024-12-04 18:58:27+00:00 |
arxivサイト | arxiv_id(pdf) |