Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models

要約

ビジョンモデルを真に理解するには、学習した機能を解釈するだけでなく、制御された実験を通じてこれらの解釈を検証する必要があります。
現在のアプローチは、因果関係のある影響をテストする機能なしで解釈可能な機能を提供するか、解釈可能なコントロールなしでモデル編集を有効にします。
このギャップを橋渡しするスパース自動エンコーダー(SAE)を使用して統一されたフレームワークを提示し、人間が解釈できる視覚的特徴を発見し、モデルの動作に関する仮説をテストするためにそれらを正確に操作できるようにします。
最先端のビジョンモデルに方法を適用することにより、さまざまなトレーニング目標を持つモデルによって学習されたセマンティック抽象化の重要な違いを明らかにします。
次に、複数のビジョンタスクにわたる制御された介入を通じて、フレームワークの実際的な使用を実証します。
SAEは、モデルの再トレーニングなしで解釈可能な視覚的特徴を確実に識別し、操作できることを示し、ビジョンモデルの動作を理解および制御するための強力なツールを提供します。
プロジェクトWebサイトでコード、デモ、モデルを提供します:https://osu-nlp-group.github.io/sae-v。

要約(オリジナル)

To truly understand vision models, we must not only interpret their learned features but also validate these interpretations through controlled experiments. Current approaches either provide interpretable features without the ability to test their causal influence, or enable model editing without interpretable controls. We present a unified framework using sparse autoencoders (SAEs) that bridges this gap, allowing us to discover human-interpretable visual features and precisely manipulate them to test hypotheses about model behavior. By applying our method to state-of-the-art vision models, we reveal key differences in the semantic abstractions learned by models with different pre-training objectives. We then demonstrate the practical usage of our framework through controlled interventions across multiple vision tasks. We show that SAEs can reliably identify and manipulate interpretable visual features without model re-training, providing a powerful tool for understanding and controlling vision model behavior. We provide code, demos and models on our project website: https://osu-nlp-group.github.io/SAE-V.

arxiv情報

著者 Samuel Stevens,Wei-Lun Chao,Tanya Berger-Wolf,Yu Su
発行日 2025-02-10 18:32:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models はコメントを受け付けていません

SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement

要約

この論文では、広く既存の粗いマスクの品質を向上させる主要な方法を探り、セグメンテーションモデルの信頼できるトレーニングデータとして、注釈コストを削減できるようにします。
特定のモデルまたはタスクに合わせて世界的な方法で調整された以前の改良技術とは対照的に、Samefinerをマスク改良タスクに適応させる普遍的で効率的なアプローチであるSamrefinerを提案します。
モデルのコアテクニックは、ノイズ耐性プロンプトスキームです。
具体的には、初期の粗いマスクからSAM(つまり、距離誘導ポイント、コンテキスト対応の弾性境界ボックス、ガウススタイルのマスク)の多様な入力プロンプトを採掘するためのマルチプロムプト掘削戦略を導入します。
これらのプロンプトは互いに協力して、粗いマスクの欠陥の効果を軽減できます。
特に、SAMがセマンティックセグメンテーションでマルチオブジェクトケースを処理するのが難しいことを考慮すると、スプリットツェンマージ(STM)パイプラインを導入します。
さらに、ターゲットデータセットでの汎用Samrefinerのパフォーマンスをさらに高めるために、追加のIOU適応ステップを導入することにより、Samrefiner ++にメソッドを拡張します。
このステップは自己促進されており、追加の注釈は必要ありません。
提案されたフレームワークは多用途であり、既存のセグメンテーション方法と柔軟に協力することができます。
さまざまな設定で幅広いベンチマークでマスクフレームワークを評価し、より良い精度と効率を示しています。
Samrefinerは、洗練ツールの進化を促進する重要な可能性を保持しています。
私たちのコードは、https://github.com/linyq2117/samrefinerで入手できます。

要約(オリジナル)

In this paper, we explore a principal way to enhance the quality of widely pre-existing coarse masks, enabling them to serve as reliable training data for segmentation models to reduce the annotation cost. In contrast to prior refinement techniques that are tailored to specific models or tasks in a close-world manner, we propose SAMRefiner, a universal and efficient approach by adapting SAM to the mask refinement task. The core technique of our model is the noise-tolerant prompting scheme. Specifically, we introduce a multi-prompt excavation strategy to mine diverse input prompts for SAM (i.e., distance-guided points, context-aware elastic bounding boxes, and Gaussian-style masks) from initial coarse masks. These prompts can collaborate with each other to mitigate the effect of defects in coarse masks. In particular, considering the difficulty of SAM to handle the multi-object case in semantic segmentation, we introduce a split-then-merge (STM) pipeline. Additionally, we extend our method to SAMRefiner++ by introducing an additional IoU adaption step to further boost the performance of the generic SAMRefiner on the target dataset. This step is self-boosted and requires no additional annotation. The proposed framework is versatile and can flexibly cooperate with existing segmentation methods. We evaluate our mask framework on a wide range of benchmarks under different settings, demonstrating better accuracy and efficiency. SAMRefiner holds significant potential to expedite the evolution of refinement tools. Our code is available at https://github.com/linyq2117/SAMRefiner.

arxiv情報

著者 Yuqi Lin,Hengjia Li,Wenqi Shao,Zheng Yang,Jun Zhao,Xiaofei He,Ping Luo,Kaipeng Zhang
発行日 2025-02-10 18:33:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement はコメントを受け付けていません

Emotion estimation from video footage with LSTM

要約

一般的な感情の推定は、長い間研究されてきた分野であり、機械学習を使用していくつかのアプローチが存在します。
このホワイトペーパーでは、カメラのライブストリームで検出された顔のために、ライブラリメディアピペによって生成されたブレンド形状を処理するLSTMモデルを提示し、表情から主な感情を推定するために、このモデルは
FER2013データセットと、FER2013データセットの精度ベンチマークを満たす71%の精度と62%のF1スコアの結果を提供し、計算コストを大幅に削減します。
https://github.com/samir-atra/emotion_estimation_from_video_footage_with_lstm_ml_algorithm

要約(オリジナル)

Emotion estimation in general is a field that has been studied for a long time, and several approaches exist using machine learning. in this paper, we present an LSTM model, that processes the blend-shapes produced by the library MediaPipe, for a face detected in a live stream of a camera, to estimate the main emotion from the facial expressions, this model is trained on the FER2013 dataset and delivers a result of 71% accuracy and 62% f1-score which meets the accuracy benchmark of the FER2013 dataset, with significantly reduced computation costs. https://github.com/Samir-atra/Emotion_estimation_from_video_footage_with_LSTM_ML_algorithm

arxiv情報

著者 Samer Attrah
発行日 2025-02-10 18:37:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T40, cs.CV, cs.LG, cs.RO, I.2.9 | Emotion estimation from video footage with LSTM はコメントを受け付けていません

History-Guided Video Diffusion

要約

分類器フリーガイダンス(CFG)は、拡散モデルの条件付き生成を改善するための重要な手法であり、サンプル品質を向上させながらより正確な制御を可能にします。
この手法をビデオ拡散に拡張することは自然です。これにより、歴史と呼ばれるさまざまな数のコンテキストフレームに条件付けられたビデオを生成します。
ただし、さまざまな長さの履歴を導くための2つの重要な課題が見つかります。固定サイズのコンディショニングのみをサポートするアーキテクチャと、CFGス​​タイルの履歴ドロップアウトのパフォーマンスが低いという経験的観察です。
これに対処するために、拡散強制変圧器(DFOT)、ビデオ拡散アーキテクチャ、および理論的に根拠のあるトレーニング目標を提案し、柔軟な数の履歴フレームのコンディショニングを共同で可能にします。
次に、DFOTによって独自に可能になったガイダンス方法のファミリーであるHistory Guidanceを紹介します。
その最も単純なフォームであるバニラの歴史ガイダンスが、すでにビデオ生成の品質と時間的一貫性を大幅に改善していることを示しています。
より高度な方法、時間と頻度にわたる履歴ガイダンスは、モーションダイナミクスをさらに強化し、分散式の履歴に合わせた一般化を可能にし、非常に長いビデオを安定に展開できます。
ウェブサイト:https://boyuan.space/history-guidance

要約(オリジナル)

Classifier-free guidance (CFG) is a key technique for improving conditional generation in diffusion models, enabling more accurate control while enhancing sample quality. It is natural to extend this technique to video diffusion, which generates video conditioned on a variable number of context frames, collectively referred to as history. However, we find two key challenges to guiding with variable-length history: architectures that only support fixed-size conditioning, and the empirical observation that CFG-style history dropout performs poorly. To address this, we propose the Diffusion Forcing Transformer (DFoT), a video diffusion architecture and theoretically grounded training objective that jointly enable conditioning on a flexible number of history frames. We then introduce History Guidance, a family of guidance methods uniquely enabled by DFoT. We show that its simplest form, vanilla history guidance, already significantly improves video generation quality and temporal consistency. A more advanced method, history guidance across time and frequency further enhances motion dynamics, enables compositional generalization to out-of-distribution history, and can stably roll out extremely long videos. Website: https://boyuan.space/history-guidance

arxiv情報

著者 Kiwhan Song,Boyuan Chen,Max Simchowitz,Yilun Du,Russ Tedrake,Vincent Sitzmann
発行日 2025-02-10 18:44:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | History-Guided Video Diffusion はコメントを受け付けていません

Grounding Text-to-Image Diffusion Models for Controlled High-Quality Image Generation

要約

テキストからイメージ(T2I)生成拡散モデルは、テキストキャプションから多様で高品質のビジュアルを合成する際に優れたパフォーマンスを実証しています。
セグメンテーションマップ、エッジ、人間のキーポイントなど、幅広いレイアウトを利用することにより、生成プロセスを制御するためのいくつかのレイアウトモデルが開発されました。
この作業では、objectDiffusionを提案します。これは、セマンティックおよび空間接地情報にT2I拡散モデルを条件付け、境界ボックスによって定義された特定の場所に目的のオブジェクトを正確にレンダリングと配置することを可能にします。
これを達成するために、ControlNetで導入されたネットワークアーキテクチャを大幅に変更して、Gligenで提案された接地方法と統合します。
COCO2017トレーニングデータセットでObjectDiffusionを微調整し、COCO2017検証データセットで評価します。
私たちのモデルは、制御可能な画像生成の精度と品質を改善し、46.6のAP $ _ {\ Text {50}} $を達成し、44.5のAR、および19.8のFIDを達成し、オープンソースデータセットで訓練された現在のSOTAモデルを上回る
3つのメトリックすべてにわたって。
ObjectDiffusionは、セマンティックおよび空間制御レイアウトにシームレスに適合する、多様で高品質の高忠実度の画像を合成する際の特徴的な機能を示しています。
定性的および定量的テストで評価されたObjectDiffusionは、さまざまなコンテキストにわたって閉鎖およびオープンセットの語彙設定で顕著な接地機能を示します。
定性的評価は、さまざまなサイズ、フォーム、および場所で複数の詳細なオブジェクトを生成するObjectDiffusionの能力を検証します。

要約(オリジナル)

Text-to-image (T2I) generative diffusion models have demonstrated outstanding performance in synthesizing diverse, high-quality visuals from text captions. Several layout-to-image models have been developed to control the generation process by utilizing a wide range of layouts, such as segmentation maps, edges, and human keypoints. In this work, we propose ObjectDiffusion, a model that conditions T2I diffusion models on semantic and spatial grounding information, enabling the precise rendering and placement of desired objects in specific locations defined by bounding boxes. To achieve this, we make substantial modifications to the network architecture introduced in ControlNet to integrate it with the grounding method proposed in GLIGEN. We fine-tune ObjectDiffusion on the COCO2017 training dataset and evaluate it on the COCO2017 validation dataset. Our model improves the precision and quality of controllable image generation, achieving an AP$_{\text{50}}$ of 46.6, an AR of 44.5, and an FID of 19.8, outperforming the current SOTA model trained on open-source datasets across all three metrics. ObjectDiffusion demonstrates a distinctive capability in synthesizing diverse, high-quality, high-fidelity images that seamlessly conform to the semantic and spatial control layout. Evaluated in qualitative and quantitative tests, ObjectDiffusion exhibits remarkable grounding capabilities in closed-set and open-set vocabulary settings across a wide variety of contexts. The qualitative assessment verifies the ability of ObjectDiffusion to generate multiple detailed objects in varying sizes, forms, and locations.

arxiv情報

著者 Ahmad Süleyman,Göksel Biricik
発行日 2025-02-10 18:54:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Grounding Text-to-Image Diffusion Models for Controlled High-Quality Image Generation はコメントを受け付けていません

Guided and Variance-Corrected Fusion with One-shot Style Alignment for Large-Content Image Generation

要約

小さな拡散モデルを使用して大きな画像を生成すると、大規模なモデルのトレーニングコストが法外になる可能性があるため、人気が高まっています。
一般的なアプローチでは、一連のオーバーラップ画像パッチを共同で生成し、隣接するパッチをマージして大きな画像を取得することが含まれます。
ただし、既存の方法の結果は、多くの場合、目立ったアーティファクト、たとえば縫い目や一貫性のないオブジェクトやスタイルを示します。
問題に対処するために、ガイド付き融合(GF)を提案しました。これは、重み付き平均を重複領域に適用することにより、遠い画像領域からのマイナスの影響を軽減します。
さらに、分散補正融合(VCF)を提案しました。これは、平均後のデータ分散を修正し、拡散性確率モデルの除去により正確な融合を生成します。
さらに、ワンショットスタイルのアラインメント(SA)を提案しました。これは、計算上の負担を追加せずに初期入力ノイズを調整することにより、大きな画像のコヒーレントスタイルを生成します。
広範な実験により、提案された融合方法により、生成された画像の品質が大幅に向上することが実証されました。
提案された方法は、大きな画像生成のための他の融合ベースの方法を強化するために、プラグアンドプレイモジュールとして広く適用できます。
コード:https://github.com/titorx/gvcfdiffusion

要約(オリジナル)

Producing large images using small diffusion models is gaining increasing popularity, as the cost of training large models could be prohibitive. A common approach involves jointly generating a series of overlapped image patches and obtaining large images by merging adjacent patches. However, results from existing methods often exhibit noticeable artifacts, e.g., seams and inconsistent objects and styles. To address the issues, we proposed Guided Fusion (GF), which mitigates the negative impact from distant image regions by applying a weighted average to the overlapping regions. Moreover, we proposed Variance-Corrected Fusion (VCF), which corrects data variance at post-averaging, generating more accurate fusion for the Denoising Diffusion Probabilistic Model. Furthermore, we proposed a one-shot Style Alignment (SA), which generates a coherent style for large images by adjusting the initial input noise without adding extra computational burden. Extensive experiments demonstrated that the proposed fusion methods improved the quality of the generated image significantly. The proposed method can be widely applied as a plug-and-play module to enhance other fusion-based methods for large image generation. Code: https://github.com/TitorX/GVCFDiffusion

arxiv情報

著者 Shoukun Sun,Min Xian,Tiankai Yao,Fei Xu,Luca Capriotti
発行日 2025-02-10 18:55:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Guided and Variance-Corrected Fusion with One-shot Style Alignment for Large-Content Image Generation はコメントを受け付けていません

KARST: Multi-Kernel Kronecker Adaptation with Re-Scaling Transmission for Visual Classification

要約

特定のタスクの事前訓練を受けたビジョンモデルを微調整することは、コンピュータービジョンにおける一般的な実践です。
ただし、モデルが大きくなるにつれて、このプロセスはより高価になります。
最近、パラメーター効率の高い微調整(PEFT)メソッドは、事前に訓練されたバックボーン内の追加の低ランクモジュールを調整することにより、トレーニング効率を改善し、ストレージのニーズを削減するための一般的なソリューションとして浮上しています。
彼らの利点にもかかわらず、彼らは限られた表現能力と事前に訓練された中間機能との不整合に苦労しています。
これらの問題に対処するために、さまざまな認識タスクのために再スケーリング送信(KARST)を備えた革新的なマルチカーネルKronecker適応を導入します。
具体的には、そのマルチカーネル設計はKroneckerの投影を水平方向に拡張し、適応マトリックスを複数の相補的なスペースに分離し、パラメーターの依存関係を削減し、よりコンパクトなサブスペースを作成します。
また、事前に訓練された機能分布とより適切に調整するために、追加の学習可能な再スケーリング因子が組み込まれ、より柔軟でバランスの取れた機能集約が可能になります。
広範な実験では、カルストが再パラメーター化特性により、無視できる推論コストで他のPEFTカウンターパートよりも優れていることを検証します。
コードは、https://github.com/lucenova/karstで公開されています。

要約(オリジナル)

Fine-tuning pre-trained vision models for specific tasks is a common practice in computer vision. However, this process becomes more expensive as models grow larger. Recently, parameter-efficient fine-tuning (PEFT) methods have emerged as a popular solution to improve training efficiency and reduce storage needs by tuning additional low-rank modules within pre-trained backbones. Despite their advantages, they struggle with limited representation capabilities and misalignment with pre-trained intermediate features. To address these issues, we introduce an innovative Multi-Kernel Kronecker Adaptation with Re-Scaling Transmission (KARST) for various recognition tasks. Specifically, its multi-kernel design extends Kronecker projections horizontally and separates adaptation matrices into multiple complementary spaces, reducing parameter dependency and creating more compact subspaces. Besides, it incorporates extra learnable re-scaling factors to better align with pre-trained feature distributions, allowing for more flexible and balanced feature aggregation. Extensive experiments validate that our KARST outperforms other PEFT counterparts with a negligible inference cost due to its re-parameterization characteristics. Code is publicly available at: https://github.com/Lucenova/KARST.

arxiv情報

著者 Yue Zhu,Haiwen Diao,Shang Gao,Long Chen,Huchuan Lu
発行日 2025-02-10 18:56:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | KARST: Multi-Kernel Kronecker Adaptation with Re-Scaling Transmission for Visual Classification はコメントを受け付けていません

Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT

要約

最近の進歩により、生成モデリングの支配的なフレームワークとして拡散変圧器(DIT)が確立されています。
この成功に基づいて、Lumina-Nextは、次のディットを使用して、フォトリアリスティックな画像の生成において並外れたパフォーマンスを実現します。
ただし、ビデオ生成の可能性はほとんど未開発のままであり、ビデオデータに固有の時空の複雑さをモデル化する上で大きな課題があります。
これに対処するために、ビデオ統合のためのテーラードソリューションを導入しながら、次のディットの強度を活用するフレームワークであるLumina-Videoを紹介します。
Lumina-Videoには、マルチスケールのネクストディットアーキテクチャが組み込まれています。これは、効率と柔軟性の両方を強化するための複数のパッチ化を共同で学習します。
モーションスコアを明示的な条件として組み込むことにより、Lumina-Videoは生成されたビデオの動的程度を直接制御することもできます。
ますます高い解像度とFPSを備えたプログレッシブトレーニングスキーム、および自然データと合成データが混在するマルチソーストレーニングスキームと組み合わせることで、Lumina-Videoは、高トレーニングと推論効率で顕著な審美的な品質と動きの滑らかさを実現します。
さらに、次のディットに基づいたビデオからオーディオモデルであるLumina-V2Aを提案して、生成されたビデオの同期サウンドを作成します。
コードはhttps://www.github.com/alpha-vllm/lumina-videoでリリースされます。

要約(オリジナル)

Recent advancements have established Diffusion Transformers (DiTs) as a dominant framework in generative modeling. Building on this success, Lumina-Next achieves exceptional performance in the generation of photorealistic images with Next-DiT. However, its potential for video generation remains largely untapped, with significant challenges in modeling the spatiotemporal complexity inherent to video data. To address this, we introduce Lumina-Video, a framework that leverages the strengths of Next-DiT while introducing tailored solutions for video synthesis. Lumina-Video incorporates a Multi-scale Next-DiT architecture, which jointly learns multiple patchifications to enhance both efficiency and flexibility. By incorporating the motion score as an explicit condition, Lumina-Video also enables direct control of generated videos’ dynamic degree. Combined with a progressive training scheme with increasingly higher resolution and FPS, and a multi-source training scheme with mixed natural and synthetic data, Lumina-Video achieves remarkable aesthetic quality and motion smoothness at high training and inference efficiency. We additionally propose Lumina-V2A, a video-to-audio model based on Next-DiT, to create synchronized sounds for generated videos. Codes are released at https://www.github.com/Alpha-VLLM/Lumina-Video.

arxiv情報

著者 Dongyang Liu,Shicheng Li,Yutong Liu,Zhen Li,Kai Wang,Xinyue Li,Qi Qin,Yufei Liu,Yi Xin,Zhongyu Li,Bin Fu,Chenyang Si,Yuewen Cao,Conghui He,Ziwei Liu,Yu Qiao,Qibin Hou,Hongsheng Li,Peng Gao
発行日 2025-02-10 18:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT はコメントを受け付けていません

Visual Agentic AI for Spatial Reasoning with a Dynamic API

要約

視覚的な推論 – 視覚世界を解釈する能力 – は、3次元シーン内で動作する具体化されたエージェントにとって重要です。
AIの進歩は、画像からの質問に答えることができるビジョンモデルと言語モデルにつながりました。
ただし、3D空間推論を任された場合、パフォーマンスは低下します。
このような推論の問題の複雑さに取り組むために、LLMエージェントが一般的なサブ問題を解決するために新しい機能と共同でPythonic APIを生成するエージェントプログラム統合アプローチを導入します。
私たちの方法は、静的で人間定義されたAPIに依存する以前のアプローチの制限を克服し、より広い範囲のクエリを処理できるようにします。
3D理解のAI機能を評価するために、複数のステップの接地と推論を含むクエリの新しいベンチマークを紹介します。
私たちの方法は、3Dでの視覚的推論のために以前のゼロショットモデルを上回り、3D空間推論タスクのエージェントフレームワークの有効性を経験的に検証することを示します。
プロジェクトWebサイト:https://glab-caltech.github.io/vadar/

要約(オリジナル)

Visual reasoning — the ability to interpret the visual world — is crucial for embodied agents that operate within three-dimensional scenes. Progress in AI has led to vision and language models capable of answering questions from images. However, their performance declines when tasked with 3D spatial reasoning. To tackle the complexity of such reasoning problems, we introduce an agentic program synthesis approach where LLM agents collaboratively generate a Pythonic API with new functions to solve common subproblems. Our method overcomes limitations of prior approaches that rely on a static, human-defined API, allowing it to handle a wider range of queries. To assess AI capabilities for 3D understanding, we introduce a new benchmark of queries involving multiple steps of grounding and inference. We show that our method outperforms prior zero-shot models for visual reasoning in 3D and empirically validate the effectiveness of our agentic framework for 3D spatial reasoning tasks. Project website: https://glab-caltech.github.io/vadar/

arxiv情報

著者 Damiano Marsili,Rohun Agrawal,Yisong Yue,Georgia Gkioxari
発行日 2025-02-10 18:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Visual Agentic AI for Spatial Reasoning with a Dynamic API はコメントを受け付けていません

EVEv2: Improved Baselines for Encoder-Free Vision-Language Models

要約

既存のエンコーダーフリーのビジョン言語モデル(VLM)は、エンコーダベースのカウンターパートとのパフォーマンスギャップを急速に狭め、構造的シンプルさと効率的な展開を備えた統一マルチモーダルシステムの有望な可能性を強調しています。
事前に訓練されたビジョンエンコーダー、離散トークナザー、およびミニマリストの視覚層をゼロから使用して、VLM間のパフォーマンスギャップを体系的に明確にし、エンコーダーフリーのVLMの尋問していない特性を深く掘削します。
主流のエンコーダーベースのエンコーダーベースのエンコーダーに匹敵するエンコーダーのないVLMの効率的な戦略を開発します。
詳細な調査の後、エンコーダーのないVLMの新しく改善されたファミリであるEVEV2.0を発売します。
(i)統一されたモデル内でビジョンと言語を適切に分解し、階層的に結び付け、モダリティ間の干渉を減らします。
(ii)適切に設計されたトレーニング戦略により、エンコーダーフリーのVLMの効果的な最適化が可能になります。
広範な評価を通じて、EVEV2.0は、モダリティ全体でデコーダーのみのアーキテクチャを開発するための徹底的な研究を表しており、優れたデータ効率と強力な視覚節能力を実証しています。
コードは、https://github.com/baaivision/eveで公開されています。

要約(オリジナル)

Existing encoder-free vision-language models (VLMs) are rapidly narrowing the performance gap with their encoder-based counterparts, highlighting the promising potential for unified multimodal systems with structural simplicity and efficient deployment. We systematically clarify the performance gap between VLMs using pre-trained vision encoders, discrete tokenizers, and minimalist visual layers from scratch, deeply excavating the under-examined characteristics of encoder-free VLMs. We develop efficient strategies for encoder-free VLMs that rival mainstream encoder-based ones. After an in-depth investigation, we launch EVEv2.0, a new and improved family of encoder-free VLMs. We show that: (i) Properly decomposing and hierarchically associating vision and language within a unified model reduces interference between modalities. (ii) A well-designed training strategy enables effective optimization for encoder-free VLMs. Through extensive evaluation, our EVEv2.0 represents a thorough study for developing a decoder-only architecture across modalities, demonstrating superior data efficiency and strong vision-reasoning capability. Code is publicly available at: https://github.com/baaivision/EVE.

arxiv情報

著者 Haiwen Diao,Xiaotong Li,Yufeng Cui,Yueze Wang,Haoge Deng,Ting Pan,Wenxuan Wang,Huchuan Lu,Xinlong Wang
発行日 2025-02-10 18:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | EVEv2: Improved Baselines for Encoder-Free Vision-Language Models はコメントを受け付けていません