VideoRoPE: What Makes for Good Video Rotary Position Embedding?

要約

回転位置の埋め込み(ロープ)とそのバリアントは、長いコンテキスト機能に広く採用されていますが、複雑な時空間構造を備えた1Dロープへの拡張は、未解決の課題のままです。
この作業は、最初に、ロープへの効果的な適応に不可欠な4つの重要な特性を識別する包括的な分析を紹介します。
分析の一環として、V-Niahに定期的なディストラクタを追加する挑戦的なV-Niah-D(Visual Needle-in-a-haystackを使用して)タスクを紹介します。
V-Niah-Dタスクは、適切な時間的寸法の割り当てを欠いている以前のロープバリアントが、ディストラクタによって簡単に誤解されることを示しています。
分析に基づいて、\ textbf {videorope}を導入します。これは、時空間的関係を保持するように設計された\ textit {3D構造}を使用します。
Videoropeは、定期的な振動を緩和するための\ textIT {低周波数割り当て}、空間的対称性を維持するための\ textit {斜めのレイアウト}、および\ textit {調整可能な時間間隔}を維持して、時間と空間のインデックスを分離します。
Videoropeは、長いビデオ検索、ビデオ理解、ビデオ幻覚などの多様な下流タスクを越えて、以前のロープバリアントを一貫して上回ります。
私たちのコードは、\ href {https://github.com/wiselnn570/videorope} {https://github.com/wiselnn570/videorope}で入手できます。

要約(オリジナル)

While Rotary Position Embedding (RoPE) and its variants are widely adopted for their long-context capabilities, the extension of the 1D RoPE to video, with its complex spatio-temporal structure, remains an open challenge. This work first introduces a comprehensive analysis that identifies four key characteristics essential for the effective adaptation of RoPE to video, which have not been fully considered in prior work. As part of our analysis, we introduce a challenging V-NIAH-D (Visual Needle-In-A-Haystack with Distractors) task, which adds periodic distractors into V-NIAH. The V-NIAH-D task demonstrates that previous RoPE variants, lacking appropriate temporal dimension allocation, are easily misled by distractors. Based on our analysis, we introduce \textbf{VideoRoPE}, with a \textit{3D structure} designed to preserve spatio-temporal relationships. VideoRoPE features \textit{low-frequency temporal allocation} to mitigate periodic oscillations, a \textit{diagonal layout} to maintain spatial symmetry, and \textit{adjustable temporal spacing} to decouple temporal and spatial indexing. VideoRoPE consistently surpasses previous RoPE variants, across diverse downstream tasks such as long video retrieval, video understanding, and video hallucination. Our code will be available at \href{https://github.com/Wiselnn570/VideoRoPE}{https://github.com/Wiselnn570/VideoRoPE}.

arxiv情報

著者 Xilin Wei,Xiaoran Liu,Yuhang Zang,Xiaoyi Dong,Pan Zhang,Yuhang Cao,Jian Tong,Haodong Duan,Qipeng Guo,Jiaqi Wang,Xipeng Qiu,Dahua Lin
発行日 2025-02-07 18:56:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク