REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder

要約

生成モデリングのためのビデオ埋め込み装置の学習に関する新しい視点を提示します。入力ビデオの正確な複製を必要とするのではなく、効果的な埋め込みは視覚的にもっともらしい再構築の合成に焦点を当てる必要があります。
このリラックスした基準により、下流の生成モデルの品質を損なうことなく、圧縮率の大幅な改善が可能になります。
具体的には、従来のエンコーダデコーダービデオエンバダーを、拡散トランス(DIT)を使用して、コンパクトな潜在スペースからの欠落の詳細を合成するエンコーダーゲネレーターフレームワークに置き換えることを提案します。
そこで、エンコードされたビデオ潜在埋め込みでDITデコーダーを調整するための専用の潜在的なコンディショニングモジュールを開発します。
私たちの実験は、私たちのアプローチが、特に圧縮率が増加するにつれて、最先端の方法と比較して優れたエンコーディングデコードパフォーマンスを可能にすることを示しています。
私たちのアプローチの有効性を実証するために、最大32倍の時間的圧縮比を達成したビデオ埋め込み者の結果を報告し(主要なビデオ埋め込みよりも8倍高い)、テキストからビデオへの生成のためのこの超コンパクトな潜在スペースの堅牢性を検証し、潜在的拡散モデルの訓練と推論に大幅な効率を高めることができます。

要約(オリジナル)

We present a novel perspective on learning video embedders for generative modeling: rather than requiring an exact reproduction of an input video, an effective embedder should focus on synthesizing visually plausible reconstructions. This relaxed criterion enables substantial improvements in compression ratios without compromising the quality of downstream generative models. Specifically, we propose replacing the conventional encoder-decoder video embedder with an encoder-generator framework that employs a diffusion transformer (DiT) to synthesize missing details from a compact latent space. Therein, we develop a dedicated latent conditioning module to condition the DiT decoder on the encoded video latent embedding. Our experiments demonstrate that our approach enables superior encoding-decoding performance compared to state-of-the-art methods, particularly as the compression ratio increases. To demonstrate the efficacy of our approach, we report results from our video embedders achieving a temporal compression ratio of up to 32x (8x higher than leading video embedders) and validate the robustness of this ultra-compact latent space for text-to-video generation, providing a significant efficiency boost in latent diffusion model training and inference.

arxiv情報

著者 Yitian Zhang,Long Mai,Aniruddha Mahapatra,David Bourgin,Yicong Hong,Jonah Casebeer,Feng Liu,Yun Fu
発行日 2025-03-11 17:51:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder はコメントを受け付けていません

SSVQ: Unleashing the Potential of Vector Quantization with Sign-Splitting

要約

ベクター量子化(VQ)は、特に極端な圧縮シナリオでは、多様なモデル全体で均一な量子化よりも大幅に低い量子化誤差を示す顕著な重量圧縮技術として浮上しています。
ただし、微調整中のその有効性は、同じコードワードに割り当てられた重量ベクターが同じ方向の更新に制限されている圧縮形式の制約によって制限されます。
その結果、多くの量子化された重みは、局所勾配情報に反して方向に移動することを余儀なくされています。
この問題を軽減するために、コードブックの重みのサインビットを切り離す新しいVQパラダイム、サインスプリッティングVQ(SSVQ)を紹介します。
私たちのアプローチでは、非圧縮重量の標識ビットを抽出し、全陽性のウェイトでクラスタリングと圧縮を実行することが含まれます。
次に、サインビットの潜在変数を導入し、サインとコードブックの両方を共同で最適化します。
さらに、トレーニングの安定性を確保するために、学習可能なサインのためのプログレッシブフリーズ戦略を実装します。
さまざまな最新のモデルとタスクに関する広範な実験は、SSVQが従来のVQと比較して非常に優れた圧縮acccuuracyトレードオフを達成することを示しています。
さらに、ハードウェアアクセラレータでアルゴリズムを検証し、SSVQがメモリアクセスを削減することにより8ビット圧縮モデルで3 $ \ Times $速度を達成することを示します。

要約(オリジナル)

Vector Quantization (VQ) has emerged as a prominent weight compression technique, showcasing substantially lower quantization errors than uniform quantization across diverse models, particularly in extreme compression scenarios. However, its efficacy during fine-tuning is limited by the constraint of the compression format, where weight vectors assigned to the same codeword are restricted to updates in the same direction. Consequently, many quantized weights are compelled to move in directions contrary to their local gradient information. To mitigate this issue, we introduce a novel VQ paradigm, Sign-Splitting VQ (SSVQ), which decouples the sign bit of weights from the codebook. Our approach involves extracting the sign bits of uncompressed weights and performing clustering and compression on all-positive weights. We then introduce latent variables for the sign bit and jointly optimize both the signs and the codebook. Additionally, we implement a progressive freezing strategy for the learnable sign to ensure training stability. Extensive experiments on various modern models and tasks demonstrate that SSVQ achieves a significantly superior compression-accuracy trade-off compared to conventional VQ. Furthermore, we validate our algorithm on a hardware accelerator, showing that SSVQ achieves a 3$\times$ speedup over the 8-bit compressed model by reducing memory access.

arxiv情報

著者 Shuaiting Li,Juncan Deng,Chenxuan Wang,Kedong Xu,Rongtao Deng,Hong Gu,Haibin Shen,Kejie Huang
発行日 2025-03-11 17:52:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SSVQ: Unleashing the Potential of Vector Quantization with Sign-Splitting はコメントを受け付けていません

Keypoint Detection and Description for Raw Bayer Images

要約

キーポイント検出とローカル機能の説明は、ロボット認識の基本的なタスクであり、スラム、ロボットローカリゼーション、機能マッチング、ポーズ推定、3Dマッピングなどのアプリケーションにとって重要です。
既存のメソッドは主にRGB画像で動作しますが、RAW画像を直接処理する新しいネットワークを提案し、画像信号プロセッサ(ISP)の必要性をバイパスします。
このアプローチは、ロボットビジョンシステムにとって重要なハードウェアの要件とメモリ消費を大幅に削減します。
私たちの方法では、RGBに変換せずにチャネル間情報を保存することができる2つのカスタム設計された畳み込み媒介性を生の画像で直接実行することができます。
実験結果は、ネットワークが生の画像上の既存のアルゴリズムを上回り、大きな回転とスケールのバリエーションでより高い精度と安定性を達成することを示しています。
この作業は、RAW画像向けに特にキーポイント検出と機能の説明ネットワークを開発する最初の試みを表しており、リソースに制約のある環境向けのより効率的なソリューションを提供します。

要約(オリジナル)

Keypoint detection and local feature description are fundamental tasks in robotic perception, critical for applications such as SLAM, robot localization, feature matching, pose estimation, and 3D mapping. While existing methods predominantly operate on RGB images, we propose a novel network that directly processes raw images, bypassing the need for the Image Signal Processor (ISP). This approach significantly reduces hardware requirements and memory consumption, which is crucial for robotic vision systems. Our method introduces two custom-designed convolutional kernels capable of performing convolutions directly on raw images, preserving inter-channel information without converting to RGB. Experimental results show that our network outperforms existing algorithms on raw images, achieving higher accuracy and stability under large rotations and scale variations. This work represents the first attempt to develop a keypoint detection and feature description network specifically for raw images, offering a more efficient solution for resource-constrained environments.

arxiv情報

著者 Jiakai Lin,Jinchang Zhang,Guoyu Lu
発行日 2025-03-11 17:54:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Keypoint Detection and Description for Raw Bayer Images はコメントを受け付けていません

Language-Depth Navigated Thermal and Visible Image Fusion

要約

深さ誘導マルチモーダルフュージョンは、可視および赤外線画像から深さ情報を組み合わせて、3D再構築およびロボット工学アプリケーションのパフォーマンスを大幅に向上させます。
既存の熱可視画像融合は、主に検出タスクに焦点を当てており、深さなどの他の重要な情報を無視しています。
低光および複雑な環境での単一のモダリティの制限に対処することにより、融合画像からの深さ情報は、より正確なポイントクラウドデータを生成するだけでなく、3D再構成の完全性と精度を向上させるだけでなく、ロボットナビゲーション、ローカリゼーション、環境認識の包括的なシーン理解も提供します。
これは、自律運転や救助ミッションなどのアプリケーションでの正確な認識と効率的な運用をサポートします。
テキスト誘導および深さ駆動型の赤外線と目に見える画像融合ネットワークを紹介します。
このモデルは、テキスト誘導モジュールと2つの補助深度推定分岐を装備した拡散モデルを介してマルチチャネル補完情報を抽出するための画像融合分岐で構成されています。
Fusion Branchは、クリップを使用して、深さが豊富な画像の説明からセマンティック情報とパラメーターを抽出し、マルチチャネル機能を抽出し、融合画像を生成する拡散モデルを導きます。
これらの融合画像は、深度推定分岐に入力して、深さ駆動型の損失を計算し、画像融合ネットワークを最適化します。
このフレームワークは、ビジョン言語と深さを統合して、マルチモーダル入力から色融合画像を直接生成することを目的としています。

要約(オリジナル)

Depth-guided multimodal fusion combines depth information from visible and infrared images, significantly enhancing the performance of 3D reconstruction and robotics applications. Existing thermal-visible image fusion mainly focuses on detection tasks, ignoring other critical information such as depth. By addressing the limitations of single modalities in low-light and complex environments, the depth information from fused images not only generates more accurate point cloud data, improving the completeness and precision of 3D reconstruction, but also provides comprehensive scene understanding for robot navigation, localization, and environmental perception. This supports precise recognition and efficient operations in applications such as autonomous driving and rescue missions. We introduce a text-guided and depth-driven infrared and visible image fusion network. The model consists of an image fusion branch for extracting multi-channel complementary information through a diffusion model, equipped with a text-guided module, and two auxiliary depth estimation branches. The fusion branch uses CLIP to extract semantic information and parameters from depth-enriched image descriptions to guide the diffusion model in extracting multi-channel features and generating fused images. These fused images are then input into the depth estimation branches to calculate depth-driven loss, optimizing the image fusion network. This framework aims to integrate vision-language and depth to directly generate color-fused images from multimodal inputs.

arxiv情報

著者 Jinchang Zhang,Zijun Li,Guoyu Lu
発行日 2025-03-11 17:55:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Language-Depth Navigated Thermal and Visible Image Fusion はコメントを受け付けていません

OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting

要約

拡散ベースの生成モデルは、オブジェクト指向の画像編集に革命をもたらしましたが、現実的なオブジェクトの除去と挿入への展開は、物理的効果の複雑な相互作用やペアのトレーニングデータが不十分ななどの課題によって妨げられたままです。
この作業では、孤立したタスクではなく相互依存プロセスとしてオブジェクトの削除と挿入を再概念化する統一されたフレームワークであるOmnipaintを紹介します。
事前に訓練された拡散を活用して、初期のペアのサンプル最適化とその後のサイクルフローを介した大規模な大規模な洗練された精製を含むプログレッシブトレーニングパイプラインとともに、正確な前景エリミネーションとシームレスなオブジェクトの挿入を実現しながら、シーンのジオメトリとイントリン特性を忠実に保存します。
さらに、私たちの新しいCFDメトリックは、コンテキストの一貫性とオブジェクトの幻覚の堅牢で参照フリーの評価を提供し、高忠実度の画像編集のための新しいベンチマークを確立します。
プロジェクトページ:https://github.com/yeates/omnipaint-page/

要約(オリジナル)

Diffusion-based generative models have revolutionized object-oriented image editing, yet their deployment in realistic object removal and insertion remains hampered by challenges such as the intricate interplay of physical effects and insufficient paired training data. In this work, we introduce OmniPaint, a unified framework that re-conceptualizes object removal and insertion as interdependent processes rather than isolated tasks. Leveraging a pre-trained diffusion prior along with a progressive training pipeline comprising initial paired sample optimization and subsequent large-scale unpaired refinement via CycleFlow, OmniPaint achieves precise foreground elimination and seamless object insertion while faithfully preserving scene geometry and intrinsic properties. Furthermore, our novel CFD metric offers a robust, reference-free evaluation of context consistency and object hallucination, establishing a new benchmark for high-fidelity image editing. Project page: https://github.com/yeates/OmniPaint-Page/

arxiv情報

著者 Yongsheng Yu,Ziyun Zeng,Haitian Zheng,Jiebo Luo
発行日 2025-03-11 17:55:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting はコメントを受け付けていません

GarmentCrafter: Progressive Novel View Synthesis for Single-View 3D Garment Reconstruction and Editing

要約

GarmentCrafterを紹介します。これは、非専門的なユーザーがシングルビュー画像から3D衣服を作成および変更できる新しいアプローチです。
画像生成の最近の進歩により、2D衣服のデザインが促進されましたが、3D衣服の作成と編集は、非専門的なユーザーにとって依然として困難です。
シングルビュー3D再構成の既存の方法は、多くの場合、事前に訓練された生成モデルに依存して、参照画像とカメラのポーズ上の新しいビューの条件付けを合成しますが、クロスビューの一貫性がなく、異なるビューで内部関係をキャプチャできません。
この論文では、この課題にプログレッシブ深度予測とイメージワーピングを通じて、新しい見解を近似してこの課題に取り組みます。
その後、マルチビュー拡散モデルをトレーニングして、進化するカメラのポーズによって通知された、閉塞されていない未知の衣類領域を完全にします。
RGBと深さを共同で推測することにより、GarmentCrafterはインタービューのコヒーレンスを実施し、正確な形状と細かい詳細を再構築します。
広範な実験は、私たちの方法が、最先端のシングルビュー3D衣服の再構築方法と比較して、優れた視覚的忠実度と視点間の一貫性を達成することを示しています。

要約(オリジナル)

We introduce GarmentCrafter, a new approach that enables non-professional users to create and modify 3D garments from a single-view image. While recent advances in image generation have facilitated 2D garment design, creating and editing 3D garments remains challenging for non-professional users. Existing methods for single-view 3D reconstruction often rely on pre-trained generative models to synthesize novel views conditioning on the reference image and camera pose, yet they lack cross-view consistency, failing to capture the internal relationships across different views. In this paper, we tackle this challenge through progressive depth prediction and image warping to approximate novel views. Subsequently, we train a multi-view diffusion model to complete occluded and unknown clothing regions, informed by the evolving camera pose. By jointly inferring RGB and depth, GarmentCrafter enforces inter-view coherence and reconstructs precise geometries and fine details. Extensive experiments demonstrate that our method achieves superior visual fidelity and inter-view coherence compared to state-of-the-art single-view 3D garment reconstruction methods.

arxiv情報

著者 Yuanhao Wang,Cheng Zhang,Gonçalo Frazão,Jinlong Yang,Alexandru-Eugen Ichim,Thabo Beeler,Fernando De la Torre
発行日 2025-03-11 17:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | GarmentCrafter: Progressive Novel View Synthesis for Single-View 3D Garment Reconstruction and Editing はコメントを受け付けていません

CoLMDriver: LLM-based Negotiation Benefits Cooperative Autonomous Driving

要約

車両から車両への(V2V)協同的自律運転は、単一エージェントシステムに固有の認識と予測の不確実性に対処することにより、安全性を改善するための非常に有望です。
ただし、従来の協同的方法は、厳格なコラボレーションプロトコルと、目に見えないインタラクティブなシナリオに限られた一般化によって制約されています。
LLMベースのアプローチは一般化された推論能力を提供しますが、空間計画における課題と不安定な推論レイテンシーは、協同運転における直接的な適用を妨げます。
これらの制限に対処するために、最初のフルパイプラインLLMベースの協同運転システムであるColmdriverを提案し、効果的な言語ベースの交渉とリアルタイムの運転制御を可能にします。
colmdriverは、2つの重要なコンポーネントを備えた並列駆動パイプラインを備えています。(i)すべての車両の以前の決定からのフィードバックを通じて協力ポリシーを継続的に洗練する俳優criticパラダイムの下のLLMベースのネゴシエーションモジュール。
(ii)交渉の結果を実行可能ウェイポイントに変換する意図ガイド付きウェイポイントジェネレーター。
さらに、V2V協力を評価するための10の挑戦的なインタラクティブな運転シナリオで構成されるカーラベースのシミュレーションベンチマークであるInterdriveを紹介します。
実験結果は、Colmdriverが既存のアプローチを大幅に上回り、多様な高度にインタラクティブなV2V駆動シナリオで11%高い成功率を達成することを示しています。
コードはhttps://github.com/cxliu0314/colmdriverでリリースされます。

要約(オリジナル)

Vehicle-to-vehicle (V2V) cooperative autonomous driving holds great promise for improving safety by addressing the perception and prediction uncertainties inherent in single-agent systems. However, traditional cooperative methods are constrained by rigid collaboration protocols and limited generalization to unseen interactive scenarios. While LLM-based approaches offer generalized reasoning capabilities, their challenges in spatial planning and unstable inference latency hinder their direct application in cooperative driving. To address these limitations, we propose CoLMDriver, the first full-pipeline LLM-based cooperative driving system, enabling effective language-based negotiation and real-time driving control. CoLMDriver features a parallel driving pipeline with two key components: (i) an LLM-based negotiation module under an actor-critic paradigm, which continuously refines cooperation policies through feedback from previous decisions of all vehicles; and (ii) an intention-guided waypoint generator, which translates negotiation outcomes into executable waypoints. Additionally, we introduce InterDrive, a CARLA-based simulation benchmark comprising 10 challenging interactive driving scenarios for evaluating V2V cooperation. Experimental results demonstrate that CoLMDriver significantly outperforms existing approaches, achieving an 11% higher success rate across diverse highly interactive V2V driving scenarios. Code will be released on https://github.com/cxliu0314/CoLMDriver.

arxiv情報

著者 Changxing Liu,Genjia Liu,Zijun Wang,Jinchang Yang,Siheng Chen
発行日 2025-03-11 17:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MA | CoLMDriver: LLM-based Negotiation Benefits Cooperative Autonomous Driving はコメントを受け付けていません

‘Principal Components’ Enable A New Language of Images

要約

潜在的なトークン空間に証明可能なPCA様構造を埋め込む新しい視覚トークン化フレームワークを導入します。
既存の視覚トークンザーは主に再構成の忠実度のために最適化しますが、潜在空間の構造的特性を無視することがよくあります。これは、解釈可能性と下流のタスクの両方の重要な要因です。
私たちの方法は、画像の1D因果トークンシーケンスを生成します。各連続したトークンは、主成分分析に類似した数学的に保証された説明された説明の分散を数学的に保証する非重複情報を生成します。
この構造的制約により、トークン剤が最初に最も顕著な視覚的特徴を抽出し、その後のトークンが減少しているが補完的な情報を追加します。
さらに、拡散デコーダーを活用することにより、トークンの高レベルのセマンティックコンテンツと低レベルのスペクトル詳細の不要なエンタングルメントを引き起こすセマンティックスペクトルカップリング効果を特定して解決しました。
実験は、私たちのアプローチが最先端の再構成パフォーマンスを達成し、より良い解釈性が人間のビジョンシステムと整合することを可能にすることを示しています。
さらに、トークンシーケンスでトレーニングされた自動回帰モデルは、トレーニングと推論にはより少ないトークンを必要とする一方で、現在の最先端の方法に匹敵するパフォーマンスを実現します。

要約(オリジナル)

We introduce a novel visual tokenization framework that embeds a provable PCA-like structure into the latent token space. While existing visual tokenizers primarily optimize for reconstruction fidelity, they often neglect the structural properties of the latent space — a critical factor for both interpretability and downstream tasks. Our method generates a 1D causal token sequence for images, where each successive token contributes non-overlapping information with mathematically guaranteed decreasing explained variance, analogous to principal component analysis. This structural constraint ensures the tokenizer extracts the most salient visual features first, with each subsequent token adding diminishing yet complementary information. Additionally, we identified and resolved a semantic-spectrum coupling effect that causes the unwanted entanglement of high-level semantic content and low-level spectral details in the tokens by leveraging a diffusion decoder. Experiments demonstrate that our approach achieves state-of-the-art reconstruction performance and enables better interpretability to align with the human vision system. Moreover, auto-regressive models trained on our token sequences achieve performance comparable to current state-of-the-art methods while requiring fewer tokens for training and inference.

arxiv情報

著者 Xin Wen,Bingchen Zhao,Ismail Elezi,Jiankang Deng,Xiaojuan Qi
発行日 2025-03-11 17:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ‘Principal Components’ Enable A New Language of Images はコメントを受け付けていません

OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models

要約

統一されたマルチモーダル理解と視覚生成(またはマルチモーダル生成)モデルの最近の進歩は、大規模な計算の複雑さと大規模なトレーニングデータへの依存によって妨げられています。
統一された次のトークン予測パラダイムを介してテキストと画像の両方を生成する最初の線形アーキテクチャベースのマルチモーダル生成モデルであるOmnimambaを紹介します。
このモデルは、MAMBA-2の高い計算効率とメモリ効率を完全に活用し、テキスト生成からマルチモーダル生成に拡大します。
既存の統一モデルのデータ非効率性に対処するために、2つの重要なイノベーションを提案します。(1)モダリティ固有の生成を導くための語彙の分離された語彙、および(2)パラメーター効率の高い適応のためのタスク固有のLORA。
さらに、2つのタスク間のデータの不均衡を緩和するために、分離された2段階のトレーニング戦略を導入します。
これらのテクニックを備えたOmnimambaは、Show-Oの1,000倍少ない2mの画像テキストペアでトレーニングされているにもかかわらず、ベンチマーク全体でShow-Oを上回りながら、Janusflowで競争力のあるパフォーマンスを達成します。
特に、Omnimambaは優れた推論効率で際立っており、トランスベースの対応物と比較して、長いシーケンス生成で最大119.2倍のスピードアップと63%のGPUメモリ削減を達成しています。
コードとモデルはhttps://github.com/hustvl/omnimambaでリリースされます

要約(オリジナル)

Recent advancements in unified multimodal understanding and visual generation (or multimodal generation) models have been hindered by their quadratic computational complexity and dependence on large-scale training data. We present OmniMamba, the first linear-architecture-based multimodal generation model that generates both text and images through a unified next-token prediction paradigm. The model fully leverages Mamba-2’s high computational and memory efficiency, extending its capabilities from text generation to multimodal generation. To address the data inefficiency of existing unified models, we propose two key innovations: (1) decoupled vocabularies to guide modality-specific generation, and (2) task-specific LoRA for parameter-efficient adaptation. Furthermore, we introduce a decoupled two-stage training strategy to mitigate data imbalance between two tasks. Equipped with these techniques, OmniMamba achieves competitive performance with JanusFlow while surpassing Show-o across benchmarks, despite being trained on merely 2M image-text pairs, which is 1,000 times fewer than Show-o. Notably, OmniMamba stands out with outstanding inference efficiency, achieving up to a 119.2 times speedup and 63% GPU memory reduction for long-sequence generation compared to Transformer-based counterparts. Code and models are released at https://github.com/hustvl/OmniMamba

arxiv情報

著者 Jialv Zou,Bencheng Liao,Qian Zhang,Wenyu Liu,Xinggang Wang
発行日 2025-03-11 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models はコメントを受け付けていません

QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension

要約

長いビデオ理解における最近の進歩は、通常、注意分布に基づいて視覚トークン剪定を通じて視覚的冗長性を軽減します。
ただし、既存の方法では、デコーダー層での事後の低応答トークンプルーニングを使用していますが、視覚トークンと命令(クエリ)の間の入力レベルのセマンティック相関を見落としています。
このホワイトペーパーでは、クォータを提案します。クォータは、クエリ指向のフレームレベルの重要性評価に基づいて、視覚トークンの割り当て用に既存の大きなビデオ言語モデル(LVLMS)を拡張するアンティホックトレーニングフリーモジュラーです。
クエリ指向のトークン選択は、視覚処理をタスク固有の要件と整列させ、意味的に関連するコンテンツを保存しながらトークン予算の利用を最適化するため、重要です。
具体的には、(i)クォータは、クエリの関連性に基づいてフレームレベルの重要性スコアを戦略的に割り当て、デコーダー層でのクロスモーダルインタラクションの前に1回限りの視覚トークン割り当てを可能にします。
広範な実験結果は、LLAVA-Video-7Bでクォータを実装すると、ベースラインと同じ視覚トークン予算内で動作しながら、6つのベンチマーク(ビデオMMEおよびMLVUを含む)にわたって平均パフォーマンス改善が得られることを示しています。
コードはhttps://github.com/mac-automl/quotaでオープンソーシングされています。

要約(オリジナル)

Recent advances in long video understanding typically mitigate visual redundancy through visual token pruning based on attention distribution. However, while existing methods employ post-hoc low-response token pruning in decoder layers, they overlook the input-level semantic correlation between visual tokens and instructions (query). In this paper, we propose QuoTA, an ante-hoc training-free modular that extends existing large video-language models (LVLMs) for visual token assignment based on query-oriented frame-level importance assessment. The query-oriented token selection is crucial as it aligns visual processing with task-specific requirements, optimizing token budget utilization while preserving semantically relevant content. Specifically, (i) QuoTA strategically allocates frame-level importance scores based on query relevance, enabling one-time visual token assignment before cross-modal interactions in decoder layers, (ii) we decouple the query through Chain-of-Thoughts reasoning to facilitate more precise LVLM-based frame importance scoring, and (iii) QuoTA offers a plug-and-play functionality that extends to existing LVLMs. Extensive experimental results demonstrate that implementing QuoTA with LLaVA-Video-7B yields an average performance improvement of 3.2% across six benchmarks (including Video-MME and MLVU) while operating within an identical visual token budget as the baseline. Codes are open-sourced at https://github.com/MAC-AutoML/QuoTA.

arxiv情報

著者 Yongdong Luo,Wang Chen,Xiawu Zheng,Weizhong Huang,Shukang Yin,Haojia Lin,Chaoyou Fu,Jinfa Huang,Jiayi Ji,Jiebo Luo,Rongrong Ji
発行日 2025-03-11 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension はコメントを受け付けていません