要約
現在のビデオ分析アプローチは、柔軟性と効率性の基本的なトレードオフに直面しています。
エンドツーエンドのビジョン言語モデル(VLM)は、多くの場合、長いコンテキスト処理と格闘し、高い計算コストを負担しますが、神経調節法は手動のラベル付けと厳格なルール設計に大きく依存しています。
この論文では、スケーラビリティの制限に対処しながら、VLMSと同様のユーザーフレンドリーなクエリインターフェイスを提供するニューロシンボリックビデオ分析システムであるLazyVLMを紹介します。
LazyVLMを使用すると、ユーザーはビデオデータを簡単にドロップし、ビデオ分析用の半構造化テキストインターフェイスを使用して複雑なマルチフレームビデオクエリを指定できます。
VLMSのスケーラビリティ制限に対処するために、LazyVLMはマルチフレームビデオクエリを細かい粒度の操作に分解し、処理の大部分を効率的なリレーショナルクエリ実行およびベクトル類似性検索にオフロードします。
LazyVLMは、規模のオープンドメインビデオデータをクエリするための堅牢で効率的でユーザーフレンドリーなソリューションを提供することを実証します。
要約(オリジナル)
Current video analytics approaches face a fundamental trade-off between flexibility and efficiency. End-to-end Vision Language Models (VLMs) often struggle with long-context processing and incur high computational costs, while neural-symbolic methods depend heavily on manual labeling and rigid rule design. In this paper, we introduce LazyVLM, a neuro-symbolic video analytics system that provides a user-friendly query interface similar to VLMs, while addressing their scalability limitation. LazyVLM enables users to effortlessly drop in video data and specify complex multi-frame video queries using a semi-structured text interface for video analytics. To address the scalability limitations of VLMs, LazyVLM decomposes multi-frame video queries into fine-grained operations and offloads the bulk of the processing to efficient relational query execution and vector similarity search. We demonstrate that LazyVLM provides a robust, efficient, and user-friendly solution for querying open-domain video data at scale.
arxiv情報
著者 | Xiangru Jian,Wei Pang,Zhengyuan Dong,Chao Zhang,M. Tamer Özsu |
発行日 | 2025-05-27 17:31:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google