SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

要約

エンドツーエンドのドキュメント変換をターゲットにした超コンパクトビジョン言語モデルであるSmoldoclingを紹介します。
私たちのモデルは、場所との完全なコンテキストですべてのページ要素をキャプチャする新しいユニバーサルマークアップ形式であるDoctagsを生成することにより、ページ全体を包括的に処理します。
大規模な基礎モデル、または複数の特殊なモデルの手作りパイプラインに依存するアンサンブルソリューションに依存する既存のアプローチとは異なり、Smoldoclingは、256mパラメーターの視覚障害モデルでドキュメント要素のコンテンツ、構造、空間位置を正確にキャプチャするためのエンドツーエンド変換を提供します。
Smoldoclingは、コードリスト、表、方程式、チャート、リストなど、ビジネスドキュメント、学術論文、技術レポート、特許、フォームなどの多様なドキュメントタイプなど、コードリスト、表、方程式、チャート、リストなどのドキュメント機能を正しく再現することで、堅牢なパフォーマンスを示します。
さらに、チャート、表、方程式、およびコード認識の新しい公開データセットを提供します。
実験結果は、Smoldoclingが計算要件を大幅に削減しながら、サイズが最大27倍大きい他のビジョン言語モデルと競合することを示しています。
モデルは現在利用可能です。データセットはまもなく公開されます。

要約(オリジナル)

We introduce SmolDocling, an ultra-compact vision-language model targeting end-to-end document conversion. Our model comprehensively processes entire pages by generating DocTags, a new universal markup format that captures all page elements in their full context with location. Unlike existing approaches that rely on large foundational models, or ensemble solutions that rely on handcrafted pipelines of multiple specialized models, SmolDocling offers an end-to-end conversion for accurately capturing content, structure and spatial location of document elements in a 256M parameters vision-language model. SmolDocling exhibits robust performance in correctly reproducing document features such as code listings, tables, equations, charts, lists, and more across a diverse range of document types including business documents, academic papers, technical reports, patents, and forms — significantly extending beyond the commonly observed focus on scientific papers. Additionally, we contribute novel publicly sourced datasets for charts, tables, equations, and code recognition. Experimental results demonstrate that SmolDocling competes with other Vision Language Models that are up to 27 times larger in size, while reducing computational requirements substantially. The model is currently available, datasets will be publicly available soon.

arxiv情報

著者 Ahmed Nassar,Andres Marafioti,Matteo Omenetti,Maksym Lysak,Nikolaos Livathinos,Christoph Auer,Lucas Morin,Rafael Teixeira de Lima,Yusik Kim,A. Said Gurbuz,Michele Dolfi,Miquel Farré,Peter W. J. Staar
発行日 2025-03-14 16:44:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion はコメントを受け付けていません

Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers

要約

最先端の変圧器ベースの大規模マルチモーダルモデル(LMMS)は、因果的自己触媒操作の二次複雑さのために1時間のビデオ入力を処理するのに苦労し、トレーニングと推論中の高い計算コストにつながります。
既存のトークン圧縮ベースの方法は、ビデオトークンの数を減らしますが、多くの場合、情報の損失が発生し、非常に長いシーケンスでは非効率的なままです。
この論文では、直交方向を探索して、Mamba-2ブロックを使用してビデオトークンを線形複雑さでエンコードするハイブリッドMamba-Transformerモデル(Vamba)を構築します。
トークンの削減がなければ、Vambaは1つのGPUで1024フレーム(640 $ \ Times $ 360)をエンコードできますが、トランスベースのモデルは256フレームのみをエンコードできます。
長いビデオ入力では、バンバはトレーニングと推論中にGPUメモリの使用量を少なくとも50%削減し、トランスベースのLMMと比較してトレーニングステップごとに速度をほぼ2倍にします。
私たちの実験結果は、VAMBAが、以前の効率的なビデオLMMSよりも挑戦的な1時間のビデオ理解ベンチマークLVBenchの精度を4.3%向上させ、長くて短いビデオ理解タスクの広範囲にわたって強力なパフォーマンスを維持することを示しています。

要約(オリジナル)

State-of-the-art transformer-based large multimodal models (LMMs) struggle to handle hour-long video inputs due to the quadratic complexity of the causal self-attention operations, leading to high computational costs during training and inference. Existing token compression-based methods reduce the number of video tokens but often incur information loss and remain inefficient for extremely long sequences. In this paper, we explore an orthogonal direction to build a hybrid Mamba-Transformer model (VAMBA) that employs Mamba-2 blocks to encode video tokens with linear complexity. Without any token reduction, VAMBA can encode more than 1024 frames (640$\times$360) on a single GPU, while transformer-based models can only encode 256 frames. On long video input, VAMBA achieves at least 50% reduction in GPU memory usage during training and inference, and nearly doubles the speed per training step compared to transformer-based LMMs. Our experimental results demonstrate that VAMBA improves accuracy by 4.3% on the challenging hour-long video understanding benchmark LVBench over prior efficient video LMMs, and maintains strong performance on a broad spectrum of long and short video understanding tasks.

arxiv情報

著者 Weiming Ren,Wentao Ma,Huan Yang,Cong Wei,Ge Zhang,Wenhu Chen
発行日 2025-03-14 16:45:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers はコメントを受け付けていません

Towards Few-Call Model Stealing via Active Self-Paced Knowledge Distillation and Diffusion-Based Image Generation

要約

拡散モデルは、画像合成の強力な機能を示しており、多くのコンピュータービジョンタスクで使用されています。
この目的のために、新しいユースケース、つまり、元のトレーニングデータ、アーキテクチャ、モデルの重みにアクセスせずにブラックボックス分類モデルをコピーすることを提案します。つまり、モデルは推論APIを介してのみ公開されます。
より具体的には、モデルへの入力として渡された一部の画像サンプルの(ソフトまたはハード)ラベルのみを観察できます。
さらに、モデル呼び出しの数を制限する追加の制約を検討し、主に少ないコールモデル盗みに焦点を当てています。
適用された制限を考慮して、モデル抽出タスクを解決するために、次のフレームワークを提案します。
トレーニングデータとして、拡散モデルが現実的で多様な画像を生成する能力を活用することにより、合成データセット(プロキシデータセットと呼ばれる)を作成します。
許可されたAPI呼び出しの最大数を考えると、ブラックボックスモデルを介してそれぞれのサンプル数を渡してラベルを収集します。
最後に、Black-Box Teacher(攻撃モデル)の知識を学生モデル(攻撃されたモデルのコピー)に蒸留し、拡散モデルによって生成されたラベル付きデータと非標識データの両方を活用します。
蒸留中にプロキシデータを最大限に活用するために、新しいアクティブな自己ペース学習フレームワークを採用しています。
3つのデータセットでの経験的結果は、少ないモデル抽出シナリオにおける4つの最先端の方法にわたるフレームワークの優位性を確認します。
https://github.com/vladhondru25/model-stealingで無料で非営利的に使用するためにコードをリリースします。

要約(オリジナル)

Diffusion models showcase strong capabilities in image synthesis, being used in many computer vision tasks with great success. To this end, we propose to explore a new use case, namely to copy black-box classification models without having access to the original training data, the architecture, and the weights of the model, i.e. the model is only exposed through an inference API. More specifically, we can only observe the (soft or hard) labels for some image samples passed as input to the model. Furthermore, we consider an additional constraint limiting the number of model calls, mostly focusing our research on few-call model stealing. In order to solve the model extraction task given the applied restrictions, we propose the following framework. As training data, we create a synthetic data set (called proxy data set) by leveraging the ability of diffusion models to generate realistic and diverse images. Given a maximum number of allowed API calls, we pass the respective number of samples through the black-box model to collect labels. Finally, we distill the knowledge of the black-box teacher (attacked model) into a student model (copy of the attacked model), harnessing both labeled and unlabeled data generated by the diffusion model. We employ a novel active self-paced learning framework to make the most of the proxy data during distillation. Our empirical results on three data sets confirm the superiority of our framework over four state-of-the-art methods in the few-call model extraction scenario. We release our code for free non-commercial use at https://github.com/vladhondru25/model-stealing.

arxiv情報

著者 Vlad Hondru,Radu Tudor Ionescu
発行日 2025-03-14 16:52:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Towards Few-Call Model Stealing via Active Self-Paced Knowledge Distillation and Diffusion-Based Image Generation はコメントを受け付けていません

Pathology Image Compression with Pre-trained Autoencoders

要約

デジタル組織病理学の高解像度全体のスライド画像の量が増えているため、重要な保管、伝送、および計算効率の課題が生じます。
JPEGなどの標準的な圧縮方法は、ファイルサイズを削減しますが、多くの場合、下流のタスクに重要な細粒の表現型の詳細を保存できません。
この作業では、病理画像の効率的な学習圧縮フレームワークとして、潜在的拡散モデル向けに設計された自動エンコーダー(AE)を再利用します。
圧縮レベルが変化する3つのAEモデルを体系的にベンチマークし、病理学の基礎モデルを使用して再構築能力を評価します。
病理学固有の学習知覚メトリックを最適化する再構築の忠実度をさらに強化するために、微調整戦略を導入します。
セグメンテーション、パッチ分類、複数のインスタンス学習など、ダウンストリームタスクに関するアプローチを検証し、画像をAE圧縮再構成に置き換えるとパフォーマンスの低下につながることが示されます。
さらに、AEの潜在性のK-Meansクラスタリングベースの量子化方法を提案し、再構成の品質を維持しながら貯蔵効率を改善します。
https://huggingface.co/collections/stonybrook-cvlab/pathology-fine-tuned-aes-67d45fff223a659ff2e3402dd0で微調整された自動エンコーダーの重みを提供します。

要約(オリジナル)

The growing volume of high-resolution Whole Slide Images in digital histopathology poses significant storage, transmission, and computational efficiency challenges. Standard compression methods, such as JPEG, reduce file sizes but often fail to preserve fine-grained phenotypic details critical for downstream tasks. In this work, we repurpose autoencoders (AEs) designed for Latent Diffusion Models as an efficient learned compression framework for pathology images. We systematically benchmark three AE models with varying compression levels and evaluate their reconstruction ability using pathology foundation models. We introduce a fine-tuning strategy to further enhance reconstruction fidelity that optimizes a pathology-specific learned perceptual metric. We validate our approach on downstream tasks, including segmentation, patch classification, and multiple instance learning, showing that replacing images with AE-compressed reconstructions leads to minimal performance degradation. Additionally, we propose a K-means clustering-based quantization method for AE latents, improving storage efficiency while maintaining reconstruction quality. We provide the weights of the fine-tuned autoencoders at https://huggingface.co/collections/StonyBrook-CVLab/pathology-fine-tuned-aes-67d45f223a659ff2e3402dd0.

arxiv情報

著者 Srikar Yellapragada,Alexandros Graikos,Kostas Triaridis,Zilinghan Li,Tarak Nath Nandi,Ravi K Madduri,Prateek Prasanna,Joel Saltz,Dimitris Samaras
発行日 2025-03-14 17:01:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Pathology Image Compression with Pre-trained Autoencoders はコメントを受け付けていません

Advancing 3D Gaussian Splatting Editing with Complementary and Consensus Information

要約

We present a novel framework for enhancing the visual fidelity and consistency of text-guided 3D Gaussian Splatting (3DGS) editing.
既存の編集アプローチは、2つの重要な課題に直面しています。特に挑戦的なカメラの位置における複数の視点にわたる一貫性のない幾何学的再構成と、画像操作中の深さ情報の効果的な利用は、テクスチャのアーティファクトと分解されたオブジェクトの境界をもたらします。
これらの制限に対処するために、次のように紹介します。1)3DGSからの深度マップ推定を強化する補完的な情報相互学習ネットワークを紹介し、幾何学的構造を保存しながら正確な深さ条件付き3D編集を可能にします。
2)拡散除去プロセス中に潜在コードを効果的に整列させ、編集された結果のマルチビューの一貫性を確保するウェーブレットコンセンサス注意メカニズム。
広範な実験を通じて、私たちの方法は、最先端のアプローチと比較して、品質とビューの一貫性をレンダリングする上で優れたパフォーマンスを示しています。
The results validate our framework as an effective solution for text-guided editing of 3D scenes.

要約(オリジナル)

We present a novel framework for enhancing the visual fidelity and consistency of text-guided 3D Gaussian Splatting (3DGS) editing. Existing editing approaches face two critical challenges: inconsistent geometric reconstructions across multiple viewpoints, particularly in challenging camera positions, and ineffective utilization of depth information during image manipulation, resulting in over-texture artifacts and degraded object boundaries. To address these limitations, we introduce: 1) A complementary information mutual learning network that enhances depth map estimation from 3DGS, enabling precise depth-conditioned 3D editing while preserving geometric structures. 2) A wavelet consensus attention mechanism that effectively aligns latent codes during the diffusion denoising process, ensuring multi-view consistency in the edited results. Through extensive experimentation, our method demonstrates superior performance in rendering quality and view consistency compared to state-of-the-art approaches. The results validate our framework as an effective solution for text-guided editing of 3D scenes.

arxiv情報

著者 Xuanqi Zhang,Jieun Lee,Chris Joslin,Wonsook Lee
発行日 2025-03-14 17:15:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Advancing 3D Gaussian Splatting Editing with Complementary and Consensus Information はコメントを受け付けていません

Rethinking Few-Shot Adaptation of Vision-Language Models in Two Stages

要約

An old-school recipe for training a classifier is to (i) learn a good feature extractor and (ii) optimize a linear layer atop.
少数のショット適応(FSA)のように、カテゴリごとに少数のサンプルのみが利用可能である場合、データは多数のパラメーターに適合するには不十分であり、上記を非現実的にします。
これは、パラメーター効率の高い微調整(PEFT)とFSAの交差点での成功した研究を動機付けた大規模な訓練を受けたビジョン言語モデル(VLM)に特に当てはまります。
この作業では、「ベース」クラスと呼ばれるカテゴリのサブセットのみの少数のデータのみでトレーニングされたときに、PEFTテクニックの学習ダイナミクスを分析することから始めます。
このようなダイナミクスが自然に2つの異なるフェーズに分割されることを示します:(i)タスクレベルの特徴抽出と(ii)利用可能な概念への専門化。
To accommodate this dynamic, we then depart from prompt- or adapter-based methods and tackle FSA differently.
具体的には、固定された計算予算を考慮して、(i)PEFTを介してタスク固有の特徴抽出器を学習し、(ii)上部に線形分類器を訓練することに分割します。
We call this scheme Two-Stage Few-Shot Adaptation (2SFS).
確立された方法とは異なる方法で、私たちのスキームは、カテゴリレベルでの新しい形式の選択的推論を可能にします。つまり、テスト時に、新しいカテゴリのみが適応されたテキストエンコーダーに埋め込まれ、ベースカテゴリの埋め込みは分類器内に入手できます。
結果は、2つの設定、3つのバックボーン、および11のデータセットにわたって固定されたハイパーパラメーターを使用して、2SFが最先端に一致または上回ることを示していますが、確立された方法は設定全体で大幅に劣化しています。

要約(オリジナル)

An old-school recipe for training a classifier is to (i) learn a good feature extractor and (ii) optimize a linear layer atop. When only a handful of samples are available per category, as in Few-Shot Adaptation (FSA), data are insufficient to fit a large number of parameters, rendering the above impractical. This is especially true with large pre-trained Vision-Language Models (VLMs), which motivated successful research at the intersection of Parameter-Efficient Fine-tuning (PEFT) and FSA. In this work, we start by analyzing the learning dynamics of PEFT techniques when trained on few-shot data from only a subset of categories, referred to as the “base” classes. We show that such dynamics naturally splits into two distinct phases: (i) task-level feature extraction and (ii) specialization to the available concepts. To accommodate this dynamic, we then depart from prompt- or adapter-based methods and tackle FSA differently. Specifically, given a fixed computational budget, we split it to (i) learn a task-specific feature extractor via PEFT and (ii) train a linear classifier on top. We call this scheme Two-Stage Few-Shot Adaptation (2SFS). Differently from established methods, our scheme enables a novel form of selective inference at a category level, i.e., at test time, only novel categories are embedded by the adapted text encoder, while embeddings of base categories are available within the classifier. Results with fixed hyperparameters across two settings, three backbones, and eleven datasets, show that 2SFS matches or surpasses the state-of-the-art, while established methods degrade significantly across settings.

arxiv情報

著者 Matteo Farina,Massimiliano Mancini,Giovanni Iacca,Elisa Ricci
発行日 2025-03-14 17:24:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM | Rethinking Few-Shot Adaptation of Vision-Language Models in Two Stages はコメントを受け付けていません

TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing

要約

Treemeshgptを紹介します。Treemeshgptは、入力ポイントクラウドに沿った高品質の芸術的メッシュを生成するように設計された自動再生トランスを紹介します。
自己回帰変圧器の従来の次のトークン予測の代わりに、メッシュ内の面の三角形の隣接に基づいて構築される動的に成長しているツリー構造から次の入力トークンが取得される新しい自己回帰ツリーシーケンスを提案します。
シーケンスにより、メッシュは各ステップで最後の生成された三角形の面から局所的に拡張できるため、トレーニングの難易度が低下し、メッシュの品質が向上します。
私たちのアプローチは、2つのトークンを備えた各三角形の顔を表し、ナイーブな顔の象徴化と比較して約22%の圧縮率を達成します。
この効率的なトークン化により、私たちのモデルは、容量と忠実度の両方で以前の方法を上回り、強みクラウドコンディショニングを備えた非常に詳細な芸術メッシュを生成できます。
さらに、私たちの方法は、強力な通常の方向制約を備えたメッシュを生成し、以前の方法で一般的に遭遇する反転法線を最小限に抑えます。
私たちの実験は、Treemeshgptが洗練された詳細と通常の方向の一貫性を備えたメッシュ生成の品質を高めることを示しています。

要約(オリジナル)

We introduce TreeMeshGPT, an autoregressive Transformer designed to generate high-quality artistic meshes aligned with input point clouds. Instead of the conventional next-token prediction in autoregressive Transformer, we propose a novel Autoregressive Tree Sequencing where the next input token is retrieved from a dynamically growing tree structure that is built upon the triangle adjacency of faces within the mesh. Our sequencing enables the mesh to extend locally from the last generated triangular face at each step, and therefore reduces training difficulty and improves mesh quality. Our approach represents each triangular face with two tokens, achieving a compression rate of approximately 22% compared to the naive face tokenization. This efficient tokenization enables our model to generate highly detailed artistic meshes with strong point cloud conditioning, surpassing previous methods in both capacity and fidelity. Furthermore, our method generates mesh with strong normal orientation constraints, minimizing flipped normals commonly encountered in previous methods. Our experiments show that TreeMeshGPT enhances the mesh generation quality with refined details and normal orientation consistency.

arxiv情報

著者 Stefan Lionar,Jiabin Liang,Gim Hee Lee
発行日 2025-03-14 17:48:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.MM | TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing はコメントを受け付けていません

Seeing and Seeing Through the Glass: Real and Synthetic Data for Multi-Layer Depth Estimation

要約

透明なオブジェクトは日常生活で一般的であり、透明な表面とその背後にあるオブジェクトの両方を知覚する多層深度情報を理解することは、透明な材料と相互作用する実際のアプリケーションにとって重要です。
このホワイトペーパーでは、マルチレイヤー深度推定のタスクをサポートするために、実際のベンチマークや合成データジェネレーターを含む多層深度注釈を含む最初のデータセットであるLayeredDepthを紹介します。
現実世界のベンチマークは、多様なシーンからの1,500の画像で構成されており、最先端の深度推定方法を評価すると、透明なオブジェクトと格闘しています。
合成データジェネレーターは完全に手続き的であり、このタスクのトレーニングデータを無制限の種類のオブジェクトとシーン構成で提供することができます。
このジェネレーターを使用して、15,300枚の画像で合成データセットを作成します。
この合成データセットでのみトレーニングするベースラインモデルは、良好なクロスドメイン多層深度推定を生成します。
最先端のシングルレイヤー深度モデルを微調整すると、透明なオブジェクトでのパフォーマンスが大幅に向上し、ベンチマークのQuadrupletの精度は55.14%から75.20%に増加しました。
すべての画像と検証注釈は、https://layereddepth.cs.princeton.eduのCC0で入手できます。

要約(オリジナル)

Transparent objects are common in daily life, and understanding their multi-layer depth information — perceiving both the transparent surface and the objects behind it — is crucial for real-world applications that interact with transparent materials. In this paper, we introduce LayeredDepth, the first dataset with multi-layer depth annotations, including a real-world benchmark and a synthetic data generator, to support the task of multi-layer depth estimation. Our real-world benchmark consists of 1,500 images from diverse scenes, and evaluating state-of-the-art depth estimation methods on it reveals that they struggle with transparent objects. The synthetic data generator is fully procedural and capable of providing training data for this task with an unlimited variety of objects and scene compositions. Using this generator, we create a synthetic dataset with 15,300 images. Baseline models training solely on this synthetic dataset produce good cross-domain multi-layer depth estimation. Fine-tuning state-of-the-art single-layer depth models on it substantially improves their performance on transparent objects, with quadruplet accuracy on our benchmark increased from 55.14% to 75.20%. All images and validation annotations are available under CC0 at https://layereddepth.cs.princeton.edu.

arxiv情報

著者 Hongyu Wen,Yiming Zuo,Venkat Subramanian,Patrick Chen,Jia Deng
発行日 2025-03-14 17:52:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Seeing and Seeing Through the Glass: Real and Synthetic Data for Multi-Layer Depth Estimation はコメントを受け付けていません

Filter, Correlate, Compress: Training-Free Token Reduction for MLLM Acceleration

要約

シーケンスの長さに関するマルチモーダル大手言語モデル(MLLM)の2次複雑さは、重要な計算およびメモリの課題をもたらし、実際の展開を妨げます。
既存のトレーニングのないトークン削減方法は、これらの非効率性に対処することを目的としていますが、冗長な視覚トークンを正確に識別し、廃棄されたトークンから重要な情報を回復する方法は不明のままです。
このホワイトペーパーでは、トークンの削減を3つの段階に分解する「フィルター相関」フレームワークを提案します:冗長トークンのフィルタリング、廃棄された情報を保存されたトークンと相関させ、トークンを圧縮して冗長性を最小限に抑えます。
フレームワークに従って、単一の冗長性評価の制限を特定するためのソリューションフィココを提案し、廃棄されたトークンから重要な情報を保持するための適応戦略を提案し、トークン融合中のセマンティック希釈を緩和します。
2つの特殊なバリアント、FICOCO-V(視覚エンコーダー用)とFICOCO-L(LLMデコーダー用)は、MLLMアーキテクチャ全体の効率をさらに最適化します。
広範な実験は、FicocoがLLAVA-1.5-7B/LLAVA-NEXT-7Bで92.8%/93.6%のパフォーマンス保持により最大5.7x/14.7xフロップの減少を達成することを示しています。
私たちの方法は、最先端のトレーニングのないアプローチを一貫して上回り、再試行を必要とせずにモデルアーキテクチャ、サイズ、およびタスク全体で有効性と一般化を紹介します。
プロジェクトページはhttps://ficoco-accelerate.github.io/にあります。

要約(オリジナル)

The quadratic complexity of Multimodal Large Language Models (MLLMs) with respect to sequence length poses significant computational and memory challenges, hindering their real-world deployment. While existing training-free token reduction methods aim to address these inefficiencies, how to precisely identify redundant visual tokens and recover the essential information from the discarded tokens remain unclear. In this paper, we propose a ”filter-correlate-compress” framework that decomposes the token reduction into three stages: filtering redundant tokens, correlating discarded information to preserved tokens, and compressing tokens to minimize redundancy. Following the framework, we propose a solution FiCoCo to identify limitations in single redundancy assessment, propose adaptive strategies to retain critical information from discarded tokens, and mitigate semantic dilution during token fusion. Two specialized variants, FiCoCo-V (for vision encoders) and FiCoCo-L (for LLM decoders), further optimize efficiency across MLLM architectures. Extensive experiments demonstrate that FiCoCo achieves up to 5.7x/14.7x FLOPs reduction with 92.8%/93.6% performance retention on LLaVA-1.5-7B/LLaVA-NeXT-7B. Our methods consistently outperform state-of-the-art training-free approaches, showcasing effectiveness and generalizability across model architectures, sizes, and tasks without requiring retraining. Our project page is at https://ficoco-accelerate.github.io/.

arxiv情報

著者 Yuhang Han,Xuyang Liu,Zihan Zhang,Pengxiang Ding,Donglin Wang,Honggang Chen,Qingsen Yan,Siteng Huang
発行日 2025-03-14 17:56:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Filter, Correlate, Compress: Training-Free Token Reduction for MLLM Acceleration はコメントを受け付けていません

ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

要約

カメラ制御は、テキストまたは画像条件付けられたビデオ生成タスクで積極的に研究されています。
ただし、ビデオの作成の分野での重要性にもかかわらず、特定のビデオのカメラの軌跡を変更することは、依存していないままです。
複数フレームの外観と動的同期を維持するという追加の制約のため、それは自明ではありません。
これに対処するために、新しいカメラの軌跡で入力ビデオの動的なシーンを再現するカメラ制御の生成ビデオ再レンダリングフレームワークであるRecamamasterを提示します。
コアイノベーションは、シンプルでありながら強力なビデオコンディショニングメカニズムを通じて、事前に訓練されたテキストからビデオへの生成能力を活用することにあります。
資格のあるトレーニングデータの不足を克服するために、Unreal Engine 5を使用して包括的なマルチカメラ同期ビデオデータセットを構築します。
これは、モデルが野生のビデオに一般化するのに役立ちます。
最後に、細心の注意を払って設計されたトレーニング戦略を通じて、多様な入力に対する堅牢性をさらに改善します。
広範な実験では、私たちの方法は、既存の最先端のアプローチと強力なベースラインを大幅に上回ることを示しています。
また、私たちの方法では、ビデオの安定化、超解像度、および中断に有望なアプリケーションを見つけます。
プロジェクトページ:https://jianhongbai.github.io/recammaster/

要約(オリジナル)

Camera control has been actively studied in text or image conditioned video generation tasks. However, altering camera trajectories of a given video remains under-explored, despite its importance in the field of video creation. It is non-trivial due to the extra constraints of maintaining multiple-frame appearance and dynamic synchronization. To address this, we present ReCamMaster, a camera-controlled generative video re-rendering framework that reproduces the dynamic scene of an input video at novel camera trajectories. The core innovation lies in harnessing the generative capabilities of pre-trained text-to-video models through a simple yet powerful video conditioning mechanism — its capability often overlooked in current research. To overcome the scarcity of qualified training data, we construct a comprehensive multi-camera synchronized video dataset using Unreal Engine 5, which is carefully curated to follow real-world filming characteristics, covering diverse scenes and camera movements. It helps the model generalize to in-the-wild videos. Lastly, we further improve the robustness to diverse inputs through a meticulously designed training strategy. Extensive experiments tell that our method substantially outperforms existing state-of-the-art approaches and strong baselines. Our method also finds promising applications in video stabilization, super-resolution, and outpainting. Project page: https://jianhongbai.github.io/ReCamMaster/

arxiv情報

著者 Jianhong Bai,Menghan Xia,Xiao Fu,Xintao Wang,Lianrui Mu,Jinwen Cao,Zuozhu Liu,Haoji Hu,Xiang Bai,Pengfei Wan,Di Zhang
発行日 2025-03-14 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ReCamMaster: Camera-Controlled Generative Rendering from A Single Video はコメントを受け付けていません