Efficiency Meets Fidelity: A Novel Quantization Framework for Stable Diffusion

要約

安定した拡散モデル(SDM)を介したテキストから画像の生成は、顕著な能力を実証しています。
ただし、特に反復的な除去プロセスでの計算強度は、潜伏感度に敏感なアプリケーションでのリアルタイムの展開を妨げます。
最近の研究では、拡散モデルを圧縮するためのトレーニング後の量子化(PTQ)および量子化対応トレーニング(QAT)メソッドを調査しましたが、既存の方法は、量子化モデルと浮遊点モデルから生成された結果の一貫性を見落としていることがよくあります。
この一貫性は、効率と出力の信頼性の両方が不可欠な専門的なアプリケーションにとって最も重要です。
量子化されたSDMが高品質で一貫した画像を生成することを確認するために、SDMの効率的な量子化フレームワークを提案します。
私たちのフレームワークでは、トレーニングの関心の一貫性を同時に維持し、最適化の安定性を保証するシリアル間のパイプラインを紹介します。
この基盤の上に構築された私たちはさらに、マルチタイムステップの活性化量子化、時間情報の事前計算、層間蒸留、選択的凍結を含むいくつかの手法を開発し、量子効率を維持しながら浮遊点モデルと比較して高忠実度の生成を達成します。
複数の安定した拡散バリエーション(V1-4、V2-1、XL 1.0、およびV3)にわたる包括的な評価を通じて、我々の方法は、トレーニング時間の短縮で最先端のアプローチよりも優れたパフォーマンスを示しています。
W4A8の量子化設定では、高い画質を維持しながら、分布の類似性と視覚的忠実度の両方が大幅に改善されます。

要約(オリジナル)

Text-to-image generation via Stable Diffusion models (SDM) have demonstrated remarkable capabilities. However, their computational intensity, particularly in the iterative denoising process, hinders real-time deployment in latency-sensitive applications. While Recent studies have explored post-training quantization (PTQ) and quantization-aware training (QAT) methods to compress Diffusion models, existing methods often overlook the consistency between results generated by quantized models and those from floating-point models. This consistency is paramount for professional applications where both efficiency and output reliability are essential. To ensure that quantized SDM generates high-quality and consistent images, we propose an efficient quantization framework for SDM. Our framework introduces a Serial-to-Parallel pipeline that simultaneously maintains training-inference consistency and ensures optimization stability. Building upon this foundation, we further develop several techniques including multi-timestep activation quantization, time information precalculation, inter-layer distillation, and selective freezing, to achieve high-fidelity generation in comparison to floating-point models while maintaining quantization efficiency. Through comprehensive evaluation across multiple Stable Diffusion variants (v1-4, v2-1, XL 1.0, and v3), our method demonstrates superior performance over state-of-the-art approaches with shorter training times. Under W4A8 quantization settings, we achieve significant improvements in both distribution similarity and visual fidelity, while preserving a high image quality.

arxiv情報

著者 Shuaiting Li,Juncan Deng,Zeyu Wang,Kedong Xu,Rongtao Deng,Hong Gu,Haibin Shen,Kejie Huang
発行日 2025-05-07 16:57:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Efficiency Meets Fidelity: A Novel Quantization Framework for Stable Diffusion はコメントを受け付けていません

Componential Prompt-Knowledge Alignment for Domain Incremental Learning

要約

ドメイン増分学習(DIL)は、過去の知識を保持および利用しながら、ドメイン全体の非定常データストリームから学習することを目指しています。
プロンプトベースの方法は、マルチドメインの知識をプロンプトパラメーターに効果的に保存し、クロスドメインプロンプトフュージョンを通じて高度なパフォーマンスを取得しますが、本質的な制限を明らかにします。ドメイン固有のプロンプト間のコンポーネントごとの不整合は、矛盾する知識の統合と分解予測につながります。
これは、プロンプト内の知識コンポーネントのランダムな位置から生じます。ここでは、無関係なコンポーネント融合が干渉を導入します。これに対処するために、トレーニング中にコンポーネントにアウェアのプロンプト整列を導入する新しいプロンプトベースのDILメソッドであり、モデルの学習と推論能力の両方を大幅に改善するコンポーネントベースのDILメソッドを提案します。
KA-Promptは2つのフェーズで動作します。(1)初期コンポーネンス構造構成。新しいドメインに関連する知識を含む古いプロンプトのセットが貪欲な検索を介して採掘されます。これにより、新しいプロンプトを初期化して再利用可能な知識移転を実現し、新しいプロンプト間の固有の整合を確立します。
(2)オンラインアライメント保存。ターゲットの古いプロンプトを動的に識別し、新しいプロンプトが進化するにつれて適応コンポーネンスの一貫性の制約を適用します。
DILベンチマークでの広範な実験は、KA-Promptの有効性を示しています。
ソースコードは、https://github.com/zhoujiahuan1991/icml2025-ka-plomptで入手できます

要約(オリジナル)

Domain Incremental Learning (DIL) aims to learn from non-stationary data streams across domains while retaining and utilizing past knowledge. Although prompt-based methods effectively store multi-domain knowledge in prompt parameters and obtain advanced performance through cross-domain prompt fusion, we reveal an intrinsic limitation: component-wise misalignment between domain-specific prompts leads to conflicting knowledge integration and degraded predictions. This arises from the random positioning of knowledge components within prompts, where irrelevant component fusion introduces interference.To address this, we propose Componential Prompt-Knowledge Alignment (KA-Prompt), a novel prompt-based DIL method that introduces component-aware prompt-knowledge alignment during training, significantly improving both the learning and inference capacity of the model. KA-Prompt operates in two phases: (1) Initial Componential Structure Configuring, where a set of old prompts containing knowledge relevant to the new domain are mined via greedy search, which is then exploited to initialize new prompts to achieve reusable knowledge transfer and establish intrinsic alignment between new and old prompts. (2) Online Alignment Preservation, which dynamically identifies the target old prompts and applies adaptive componential consistency constraints as new prompts evolve. Extensive experiments on DIL benchmarks demonstrate the effectiveness of our KA-Prompt. Our source code is available at https://github.com/zhoujiahuan1991/ICML2025-KA-Prompt

arxiv情報

著者 Kunlun Xu,Xu Zou,Gang Hua,Jiahuan Zhou
発行日 2025-05-07 17:12:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Componential Prompt-Knowledge Alignment for Domain Incremental Learning はコメントを受け付けていません

Active Sampling for MRI-based Sequential Decision Making

要約

磁気共鳴画像法(MRI)の優れた診断能力にもかかわらず、ポイントオブケア(POC)デバイスとしての使用は、高コストと複雑さによって制限されたままです。
磁場強度を減らすことにより、このような未来を有効にするために、1つの重要なアプローチはサンプリング戦略を改善することです。
以前の研究では、サンプルが少ないKスペースから直接診断的な決定を行うことが可能であることが示されています。
このような研究は、単一の診断決定を下すことができることを示していますが、MRIを真のPOCと見なすことを目指している場合、取得したサンプルの数を最小限に抑えながら複数の順次決定が必要です。
アンダーサンプリングされたKスペースデータからの包括的で順次の診断評価を可能にする新しい客観的な強化学習フレームワークを提示します。
推論中の私たちのアプローチは、積極的に順次決定に適応し、最適にサンプリングします。
これを達成するために、段階的な重み付け報酬機能を使用して、各診断目標に最適なサンプルを識別するトレーニング方法を紹介します。
ACLの捻rain検出と軟骨の厚さ損失評価という2つの連続した膝の病理評価タスクでアプローチを評価します。
私たちのフレームワークは、Kスペースサンプルを大幅に保存しながら、疾患の検出、重症度の定量化、および全体的な順次診断に関するさまざまな政策ベースのベンチマークと競争力のある診断パフォーマンスを達成します。
私たちのアプローチは、包括的で手頃な価格のPOCデバイスとして、MRIの将来への道を開きます。
私たちのコードは、https://github.com/vios-s/mri_ sequentive_active_samplingで公開されています

要約(オリジナル)

Despite the superior diagnostic capability of Magnetic Resonance Imaging (MRI), its use as a Point-of-Care (PoC) device remains limited by high cost and complexity. To enable such a future by reducing the magnetic field strength, one key approach will be to improve sampling strategies. Previous work has shown that it is possible to make diagnostic decisions directly from k-space with fewer samples. Such work shows that single diagnostic decisions can be made, but if we aspire to see MRI as a true PoC, multiple and sequential decisions are necessary while minimizing the number of samples acquired. We present a novel multi-objective reinforcement learning framework enabling comprehensive, sequential, diagnostic evaluation from undersampled k-space data. Our approach during inference actively adapts to sequential decisions to optimally sample. To achieve this, we introduce a training methodology that identifies the samples that contribute the best to each diagnostic objective using a step-wise weighting reward function. We evaluate our approach in two sequential knee pathology assessment tasks: ACL sprain detection and cartilage thickness loss assessment. Our framework achieves diagnostic performance competitive with various policy-based benchmarks on disease detection, severity quantification, and overall sequential diagnosis, while substantially saving k-space samples. Our approach paves the way for the future of MRI as a comprehensive and affordable PoC device. Our code is publicly available at https://github.com/vios-s/MRI_Sequential_Active_Sampling

arxiv情報

著者 Yuning Du,Jingshuai Liu,Rohan Dharmakumar,Sotirios A. Tsaftaris
発行日 2025-05-07 17:27:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Active Sampling for MRI-based Sequential Decision Making はコメントを受け付けていません

TetWeave: Isosurface Extraction using On-The-Fly Delaunay Tetrahedral Grids for Gradient-Based Mesh Optimization

要約

Tetweaveを紹介します。Tetweaveは、四面体の行進に使用される四面体グリッドの配置と各ポイントでの新しい方向標識距離を共同で最適化する勾配ベースのメッシュ最適化のための新しい等面表現です。
Tetweaveは、Delaunayの三角測量を介してフライで四面体グリッドを構築し、事前に定義されたグリッドと比較して柔軟性を高めることができます。
抽出されたメッシュは、水密、2マニホールド、交差点がないことが保証されています。
TetWeaveの柔軟性により、再構成エラーが高い新しいポイントを配置し、再構成エラーを損なうことなくメッシュの公平性を促進できる新しいポイントを配置する再サンプリング戦略が可能になります。
これにより、メモリの使用量が最小限に抑えられ、最適化するパラメーターが少ない高品質の適応メッシュにつながります。
その結果、TetWeaveは、出力メッシュの頂点数に比べてほぼ線形メモリスケーリングを示します。これは、事前に定義されたグリッドよりも大幅に改善されています。
マルチビュー3D再構成、メッシュ圧縮、幾何学的テクスチャ生成など、コンピューターグラフィックスとビジョンにおける幅広い挑戦的なタスクへのTetWeaveの適用性を実証します。

要約(オリジナル)

We introduce TetWeave, a novel isosurface representation for gradient-based mesh optimization that jointly optimizes the placement of a tetrahedral grid used for Marching Tetrahedra and a novel directional signed distance at each point. TetWeave constructs tetrahedral grids on-the-fly via Delaunay triangulation, enabling increased flexibility compared to predefined grids. The extracted meshes are guaranteed to be watertight, two-manifold and intersection-free. The flexibility of TetWeave enables a resampling strategy that places new points where reconstruction error is high and allows to encourage mesh fairness without compromising on reconstruction error. This leads to high-quality, adaptive meshes that require minimal memory usage and few parameters to optimize. Consequently, TetWeave exhibits near-linear memory scaling relative to the vertex count of the output mesh – a substantial improvement over predefined grids. We demonstrate the applicability of TetWeave to a broad range of challenging tasks in computer graphics and vision, such as multi-view 3D reconstruction, mesh compression and geometric texture generation.

arxiv情報

著者 Alexandre Binninger,Ruben Wiersma,Philipp Herholz,Olga Sorkine-Hornung
発行日 2025-05-07 17:32:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, I.3.5 | TetWeave: Isosurface Extraction using On-The-Fly Delaunay Tetrahedral Grids for Gradient-Based Mesh Optimization はコメントを受け付けていません

MonoCoP: Chain-of-Prediction for Monocular 3D Object Detection

要約

3D属性を正確に予測することは、単眼3Dオブジェクト検出(Mono3D)にとって重要であり、2D画像を3Dスペースにマッピングすることに固有のあいまいさのために深さ推定が最大の課題となります。
既存の方法は、深さの精度を向上させるために複数の深度キュー(深さの不確実性、モデリングの深さエラーの推定、モデリングの推定など)を活用していますが、これらの属性は3Dから2Dプロジェクションを通じて本質的に相互に相関するため、他の3D属性の条件付けが必要であり、最終的には全体的な精度と安定性を制限しているため
大規模な言語モデル(LLMS)のチェーンオブ思考(COT)に触発されたこのペーパーでは、3つの重要なデザインを介して属性を順次および条件付きで予測する予測チェーン(COP)を活用するMonocopを提案します。
まず、各3D属性に対して軽量の属性(AN)を使用して、属性固有の機能を学習します。
次に、Monocopは、これらの学習された機能を次の属性から次の属性に伝播するための明示的なチェーンを構築します。
最後に、Monocopは、チェーンに沿った各属性の集約機能への残留接続を使用して、以前の属性の機能を忘れずに、以前に処理されたすべての属性に対して後の属性予測が条件付けられるようにします。
実験結果は、モノコップが追加のデータを必要とせずにキッティリーダーボードで最先端の(SOTA)パフォーマンスを達成し、WAYMOおよびNuscenesの前頭データセットの既存の方法をさらに上回ることを示しています。

要約(オリジナル)

Accurately predicting 3D attributes is crucial for monocular 3D object detection (Mono3D), with depth estimation posing the greatest challenge due to the inherent ambiguity in mapping 2D images to 3D space. While existing methods leverage multiple depth cues (e.g., estimating depth uncertainty, modeling depth error) to improve depth accuracy, they overlook that accurate depth prediction requires conditioning on other 3D attributes, as these attributes are intrinsically inter-correlated through the 3D to 2D projection, which ultimately limits overall accuracy and stability. Inspired by Chain-of-Thought (CoT) in large language models (LLMs), this paper proposes MonoCoP, which leverages a Chain-of-Prediction (CoP) to predict attributes sequentially and conditionally via three key designs. First, it employs a lightweight AttributeNet (AN) for each 3D attribute to learn attribute-specific features. Next, MonoCoP constructs an explicit chain to propagate these learned features from one attribute to the next. Finally, MonoCoP uses a residual connection to aggregate features for each attribute along the chain, ensuring that later attribute predictions are conditioned on all previously processed attributes without forgetting the features of earlier ones. Experimental results show that our MonoCoP achieves state-of-the-art (SoTA) performance on the KITTI leaderboard without requiring additional data and further surpasses existing methods on the Waymo and nuScenes frontal datasets.

arxiv情報

著者 Zhihao Zhang,Abhinav Kumar,Girish Chandar Ganesan,Xiaoming Liu
発行日 2025-05-07 17:37:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MonoCoP: Chain-of-Prediction for Monocular 3D Object Detection はコメントを受け付けていません

Dynamic Network Flow Optimization for Task Scheduling in PTZ Camera Surveillance Systems

要約

このペーパーでは、動的監視環境でのパンチルトズーム(PTZ)カメラのスケジューリングと制御を最適化するための新しいアプローチを紹介します。
提案された方法は、カルマンフィルターが動的なネットワークフローモデルとモーション予測のための統合を統合して、リアルタイムのビデオキャプチャ効率を高めます。
Kalmanフィルターを追跡したオブジェクトに割り当てることにより、システムは将来の場所を予測し、カメラタスクの正確なスケジューリングを可能にします。
この予測駆動型アプローチは、ネットワークフローの最適化として策定され、さまざまな監視シナリオに対するスケーラビリティと適応性を確保します。
冗長モニタリングをさらに削減するために、グループ追跡ノードも組み込まれ、必要に応じて単一のカメラフォーカス内で複数のオブジェクトをキャプチャできるようにします。
さらに、重要なイベントのタイムリーなキャプチャに焦点を当てたカメラアクションに優先順位を付けるために、価値ベースのシステムが導入されています。
これらの値の減衰率を時間の経過とともに調整することにより、システムは差し迫った期限を伴うタスクへの迅速な応答を保証します。
広範なシミュレーションは、このアプローチがカバレッジを改善し、平均待機時間を短縮し、従来のマスター奴隷カメラシステムと比較して見逃したイベントを最小化することを示しています。
全体として、この方法は、特に動的で混雑した環境で、監視システムの効率、スケーラビリティ、および有効性を大幅に向上させます。

要約(オリジナル)

This paper presents a novel approach for optimizing the scheduling and control of Pan-Tilt-Zoom (PTZ) cameras in dynamic surveillance environments. The proposed method integrates Kalman filters for motion prediction with a dynamic network flow model to enhance real-time video capture efficiency. By assigning Kalman filters to tracked objects, the system predicts future locations, enabling precise scheduling of camera tasks. This prediction-driven approach is formulated as a network flow optimization, ensuring scalability and adaptability to various surveillance scenarios. To further reduce redundant monitoring, we also incorporate group-tracking nodes, allowing multiple objects to be captured within a single camera focus when appropriate. In addition, a value-based system is introduced to prioritize camera actions, focusing on the timely capture of critical events. By adjusting the decay rates of these values over time, the system ensures prompt responses to tasks with imminent deadlines. Extensive simulations demonstrate that this approach improves coverage, reduces average wait times, and minimizes missed events compared to traditional master-slave camera systems. Overall, our method significantly enhances the efficiency, scalability, and effectiveness of surveillance systems, particularly in dynamic and crowded environments.

arxiv情報

著者 Mohammad Merati,David Castañón
発行日 2025-05-07 17:37:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SY, eess.SY, math.OC | Dynamic Network Flow Optimization for Task Scheduling in PTZ Camera Surveillance Systems はコメントを受け付けていません

Is What You Ask For What You Get? Investigating Concept Associations in Text-to-Image Models

要約

テキストからイメージ(T2I)モデルは、インパクトのある現実のアプリケーションでますます使用されています。
そのため、これらのモデルが望ましいタスクに適した画像を生成するように、これらのモデルを監査する必要性が高まっています。
ただし、プロンプトと生成されたコンテンツの間の関連性を人間に理解できる方法で体系的に検査することは、依然として挑戦的です。
これに対処するために、これらの概念の観点から定義できる解釈可能な概念とメトリックを使用して、ビジョン言語モデルの条件付き分布を特徴付ける概念2Conceptを提案します。
この特性評価により、フレームワークを使用してモデルとプロンプトデータセットを監査することができます。
実証するために、ユーザー定義の分布や経験的、実際の分布など、プロンプトの条件付き分布に関するいくつかのケーススタディを調査します。
最後に、非技術的エンドユーザーによる使用を容易にするオープンソースインタラクティブな視覚化ツールとしてConcept2Concepteを実装します。
デモはhttps://tinyurl.com/concept2conceptdemoで入手できます。

要約(オリジナル)

Text-to-image (T2I) models are increasingly used in impactful real-life applications. As such, there is a growing need to audit these models to ensure that they generate desirable, task-appropriate images. However, systematically inspecting the associations between prompts and generated content in a human-understandable way remains challenging. To address this, we propose Concept2Concept, a framework where we characterize conditional distributions of vision language models using interpretable concepts and metrics that can be defined in terms of these concepts. This characterization allows us to use our framework to audit models and prompt-datasets. To demonstrate, we investigate several case studies of conditional distributions of prompts, such as user-defined distributions or empirical, real-world distributions. Lastly, we implement Concept2Concept as an open-source interactive visualization tool to facilitate use by non-technical end-users. A demo is available at https://tinyurl.com/Concept2ConceptDemo.

arxiv情報

著者 Salma S. Abdel Magid,Weiwei Pan,Simon Warchol,Grace Guo,Junsik Kim,Mahia Rahman,Hanspeter Pfister
発行日 2025-05-07 17:42:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Is What You Ask For What You Get? Investigating Concept Associations in Text-to-Image Models はコメントを受け付けていません

Uncertainty for SVBRDF Acquisition using Frequency Analysis

要約

このペーパーは、マルチビューキャプチャのSVBRDF取得の不確実性を定量化することを目的としています。
制御されていない照明と構造化されていない視点の下で、観測には、キャプチャされたオブジェクトの外観特性を再構築するのに十分な情報が含まれているという保証はありません。
このあいまいさまたは不確実性を研究し、エントロピーを使用して、着信と発信の視聴角のドメインではなく、周波数領域を使用して分析を加速します。
結果は、ミリ秒以内にオブジェクト全体にわたって不確実性のマップを計算する方法です。
周波数モデルにより、競争力のあるパフォーマンスを備えたSVBRDFパラメーターを回復することができ、加速されたエントロピー計算が物理ベースのパストレーサーとの結果と一致し、エラーと不確実性の間に正の相関があることがわかります。
次に、不確実性マップを適用して、キャプチャガイダンス、表面上の情報を共有し、拡散モデルを使用して不確実な領域を使用してSVBRDFの取得を改善できることを示します。
私たちのコードは、https://github.com/rubenwiersma/svbrdf_unc evantertyで入手できます。

要約(オリジナル)

This paper aims to quantify uncertainty for SVBRDF acquisition in multi-view captures. Under uncontrolled illumination and unstructured viewpoints, there is no guarantee that the observations contain enough information to reconstruct the appearance properties of a captured object. We study this ambiguity, or uncertainty, using entropy and accelerate the analysis by using the frequency domain, rather than the domain of incoming and outgoing viewing angles. The result is a method that computes a map of uncertainty over an entire object within a millisecond. We find that the frequency model allows us to recover SVBRDF parameters with competitive performance, that the accelerated entropy computation matches results with a physically-based path tracer, and that there is a positive correlation between error and uncertainty. We then show that the uncertainty map can be applied to improve SVBRDF acquisition using capture guidance, sharing information on the surface, and using a diffusion model to inpaint uncertain regions. Our code is available at https://github.com/rubenwiersma/svbrdf_uncertainty.

arxiv情報

著者 Ruben Wiersma,Julien Philip,Miloš Hašan,Krishna Mullia,Fujun Luan,Elmar Eisemann,Valentin Deschaintre
発行日 2025-05-07 17:44:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Uncertainty for SVBRDF Acquisition using Frequency Analysis はコメントを受け付けていません

OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

要約

2021年初頭にリリースされたOpenAIのクリップは、マルチモーダルファンデーションモデルを構築するためのビジョンエンコーダーの選択に長い間選択されてきました。
Siglipなどの最近の代替品はこの現状に挑戦し始めていますが、私たちの知る限り、完全に開かれていないことがあります。彼らのトレーニングデータはまれであり、トレーニングレシピはリリースされていません。
このペーパーでは、Llavaなどのマルチモーダルフレームワークに統合されたときにOpenaiのクリップのパフォーマンスに一致または上回る、完全に開放された費用対効果の高いビジョンエンコーダーであるOpenVisionでこのギャップを埋めます。
OpenVisionは、既存の作業(たとえば、トレーニングフレームワークのクリップとトレーニングデータのための要約DATACOMP-1B)に基づいて構築され、エンコーダーの品質を高め、マルチモーダルモデルの進歩における実用的な利点を紹介する複数の重要な洞察を明らかにします。
5.9mから632.1mのパラメーターにまたがるビジョンエンコーダーをリリースすることにより、OpenVisionは実務家にマルチモーダルモデルの構築の容量と効率の柔軟なトレードオフを提供します。より大きなモデルはマルチモーダルパフォーマンスを強化しますが、小型バージョンは軽量でエッジ対応マルチモーダルの展開を可能にします。

要約(オリジナル)

OpenAI’s CLIP, released in early 2021, have long been the go-to choice of vision encoder for building multimodal foundation models. Although recent alternatives such as SigLIP have begun to challenge this status quo, to our knowledge none are fully open: their training data remains proprietary and/or their training recipes are not released. This paper fills this gap with OpenVision, a fully-open, cost-effective family of vision encoders that match or surpass the performance of OpenAI’s CLIP when integrated into multimodal frameworks like LLaVA. OpenVision builds on existing works — e.g., CLIPS for training framework and Recap-DataComp-1B for training data — while revealing multiple key insights in enhancing encoder quality and showcasing practical benefits in advancing multimodal models. By releasing vision encoders spanning from 5.9M to 632.1M parameters, OpenVision offers practitioners a flexible trade-off between capacity and efficiency in building multimodal models: larger models deliver enhanced multimodal performance, while smaller versions enable lightweight, edge-ready multimodal deployments.

arxiv情報

著者 Xianhang Li,Yanqing Liu,Haoqin Tu,Hongru Zhu,Cihang Xie
発行日 2025-05-07 17:48:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning はコメントを受け付けていません

FastMap: Revisiting Dense and Scalable Structure from Motion

要約

速度とシンプルさに焦点を当てたモーションメソッドからの新しいグローバル構造であるFastMapを提案します。
ColMapやGlomapなどの以前の方法では、高精度のカメラのポーズを推定できますが、一致したキーポイントペアの数が大きくなるとスケーラビリティが低下します。
この問題につながる2つの重要な要因を特定します。並列化の低さと計算上の高価な最適化ステップです。
これらの問題を克服するために、GPUに優しい操作に完全に依存するSFMフレームワークを設計し、簡単に並行可能にします。
さらに、各最適化ステップは、キーポイントペアまたは3Dポイントとは無関係に、画像ペアの数に対して直線的に実行されます。
大規模な実験を通じて、FastMapは、同等のポーズ精度を備えた大規模なシーンのColMapやGlomapよりも1〜2桁高速であることを示しています。

要約(オリジナル)

We propose FastMap, a new global structure from motion method focused on speed and simplicity. Previous methods like COLMAP and GLOMAP are able to estimate high-precision camera poses, but suffer from poor scalability when the number of matched keypoint pairs becomes large. We identify two key factors leading to this problem: poor parallelization and computationally expensive optimization steps. To overcome these issues, we design an SfM framework that relies entirely on GPU-friendly operations, making it easily parallelizable. Moreover, each optimization step runs in time linear to the number of image pairs, independent of keypoint pairs or 3D points. Through extensive experiments, we show that FastMap is one to two orders of magnitude faster than COLMAP and GLOMAP on large-scale scenes with comparable pose accuracy.

arxiv情報

著者 Jiahao Li,Haochen Wang,Muhammad Zubair Irshad,Igor Vasiljevic,Matthew R. Walter,Vitor Campagnolo Guizilini,Greg Shakhnarovich
発行日 2025-05-07 17:56:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FastMap: Revisiting Dense and Scalable Structure from Motion はコメントを受け付けていません