k-NN as a Simple and Effective Estimator of Transferability

要約

ドメインがシフトされ、タスクが異なり、アーキテクチャが変化する新しい設定で転送学習が機能することをどれほどうまく期待できますか?
この質問に答えるために、多くの転送学習指標が提案されています。
しかし、現実的な新しい設定での予測はどれほど正確ですか?
16の異なるデータセットにわたって23の転送可能性メトリックを比較する42,000を超える実験を含む広範な評価を実施し、転送パフォーマンスを予測する能力を評価しました。
私たちの調査結果は、既存のメトリックのどれも全体でうまく機能しないことを明らかにしています。
ただし、単純なk-nearest Neightre評価 – 自己監視の機能品質を評価するために一般的に使用されるように、既存のメトリックを上回るだけでなく、より良い計算効率と実装の容易さも提供することがわかります。

要約(オリジナル)

How well can one expect transfer learning to work in a new setting where the domain is shifted, the task is different, and the architecture changes? Many transfer learning metrics have been proposed to answer this question. But how accurate are their predictions in a realistic new setting? We conducted an extensive evaluation involving over 42,000 experiments comparing 23 transferability metrics across 16 different datasets to assess their ability to predict transfer performance. Our findings reveal that none of the existing metrics perform well across the board. However, we find that a simple k-nearest neighbor evaluation — as is commonly used to evaluate feature quality for self-supervision — not only surpasses existing metrics, but also offers better computational efficiency and ease of implementation.

arxiv情報

著者 Moein Sorkhei,Christos Matsoukas,Johan Fredin Haslum,Emir Konuk,Kevin Smith
発行日 2025-06-10 15:00:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | k-NN as a Simple and Effective Estimator of Transferability はコメントを受け付けていません

DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval

要約

ビデオテキスト検索のための画像テキスト事前トレーニングモデルクリップのパラメーター効率の高い適応は、研究の顕著な分野です。
Clipは画像レベルのビジョン言語のマッチングに焦点を当てていますが、ビデオテキストの検索には、ビデオレベルでの包括的な理解が必要です。
画像レベルからビデオレベルへの転送において、ビジョン、言語、およびアライメントの3つの重要な矛盾が現れます。
ただし、既存の方法は主に言語と調整を無視しながら、視覚に焦点を当てています。
この論文では、視覚、言語、およびアライメントの矛盾の削減(Discovla)を提案します。これは、3つの矛盾すべてを同時に軽減します。
具体的には、画像レベルの機能とビデオレベルの機能を統合し、ビジョンと言語の両方の矛盾に効果的に取り組むためのImage-Video機能Fusionを紹介します。
さらに、擬似画像キャプションを生成して、細かい画像レベルのアラインメントを学習します。
アライメントの不一致を軽減するために、画像間アライメント蒸留を提案します。これは、画像レベルのアラインメント知識を活用してビデオレベルのアライメントを強化します。
広範な実験は、私たちのDiscovlaの優位性を示しています。
特に、Clip(VIT-B/16)を備えたMSRVTTでは、Discovlaは以前の方法をR@1で1.5%上回り、50.5%R@1の最終スコアに達しました。
このコードは、https://github.com/lunarshen/dsicovlaで入手できます。

要約(オリジナル)

The parameter-efficient adaptation of the image-text pretraining model CLIP for video-text retrieval is a prominent area of research. While CLIP is focused on image-level vision-language matching, video-text retrieval demands comprehensive understanding at the video level. Three key discrepancies emerge in the transfer from image-level to video-level: vision, language, and alignment. However, existing methods mainly focus on vision while neglecting language and alignment. In this paper, we propose Discrepancy Reduction in Vision, Language, and Alignment (DiscoVLA), which simultaneously mitigates all three discrepancies. Specifically, we introduce Image-Video Features Fusion to integrate image-level and video-level features, effectively tackling both vision and language discrepancies. Additionally, we generate pseudo image captions to learn fine-grained image-level alignment. To mitigate alignment discrepancies, we propose Image-to-Video Alignment Distillation, which leverages image-level alignment knowledge to enhance video-level alignment. Extensive experiments demonstrate the superiority of our DiscoVLA. In particular, on MSRVTT with CLIP (ViT-B/16), DiscoVLA outperforms previous methods by 1.5% in R@1, reaching a final score of 50.5% R@1. The code is available at https://github.com/LunarShen/DsicoVLA.

arxiv情報

著者 Leqi Shen,Guoqiang Gong,Tianxiang Hao,Tao He,Yifeng Zhang,Pengzhang Liu,Sicheng Zhao,Jungong Han,Guiguang Ding
発行日 2025-06-10 15:16:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval はコメントを受け付けていません

Product of Experts for Visual Generation

要約

最新のニューラルモデルは、豊富な事前にキャプチャされ、共有されたデータドメイン、例えば画像やビデオよりも補完的な知識を持っています。
グラフィックエンジンや物理シミュレーターなどの人間が作成した知識を持つ視覚的な生成モデル、視覚的言語モデル、ソースなど、複数のソースからの多様な知識を統合してください。
異種モデルからの推論時間知識の構成を実行する専門家(POE)フレームワークの製品を提案します。
このトレーニングなしのアプローチは、アニールされた重要性サンプリング(AIS)を介して専門家全体の製品分布からサンプルします。
私たちのフレームワークは、画像とビデオの合成タスクにおける実際的な利点を示し、モノリシックな方法よりも優れた制御可能性をもたらし、視覚生成目標を指定するための柔軟なユーザーインターフェイスをさらに提供します。

要約(オリジナル)

Modern neural models capture rich priors and have complementary knowledge over shared data domains, e.g., images and videos. Integrating diverse knowledge from multiple sources — including visual generative models, visual language models, and sources with human-crafted knowledge such as graphics engines and physics simulators — remains under-explored. We propose a Product of Experts (PoE) framework that performs inference-time knowledge composition from heterogeneous models. This training-free approach samples from the product distribution across experts via Annealed Importance Sampling (AIS). Our framework shows practical benefits in image and video synthesis tasks, yielding better controllability than monolithic methods and additionally providing flexible user interfaces for specifying visual generation goals.

arxiv情報

著者 Yunzhi Zhang,Carson Murtuza-Lanier,Zizhang Li,Yilun Du,Jiajun Wu
発行日 2025-06-10 15:21:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Product of Experts for Visual Generation はコメントを受け付けていません

WetCat: Automating Skill Assessment in Wetlab Cataract Surgery Videos

要約

体系的な外科的訓練の需要の高まりを満たすために、WetLab環境は眼科における実践的な実践のために不可欠なプラットフォームになりました。
しかし、従来のウェットラブトレーニングは、労働集約的で、時間がかかり、しばしば変動の影響を受ける手動パフォーマンス評価に大きく依存しています。
コンピュータービジョンの最近の進歩は、自動化されたスキル評価のための有望な手段を提供し、外科教育の効率と客観性の両方を高めます。
眼科外科データセットの顕著な進歩にもかかわらず、既存のリソースは主に実際の手術または孤立したタスクに焦点を当てており、制御されたウェットラブ設定での包括的なスキル評価をサポートすることに至りません。
これらの制限に対処するために、自動化されたスキル評価のために特別にキュレーションされたWetLab白内障手術ビデオの最初のデータセットであるWetCatを紹介します。
Wetcatは、人工的な目で研修生が行う手術の高解像度記録で構成されており、包括的な位相注釈と重要な解剖学的構造のセマンティックセグメンテーションを特徴としています。
これらの注釈は、標準化された外科的スキル評価フレームワークを順守している、重要なカプセロヘキシスおよび水晶体乳房化段階でのスキル評価を促進するために細心の注意を払って設計されています。
これらの重要なフェーズに焦点を当てることにより、WetCatは、確立された臨床指標に合わせた解釈可能なAI駆動型評価ツールの開発を可能にします。
このデータセットは、客観的でスケーラブルな外科教育を進めるための強力な基盤を築き、眼科トレーニングにおける自動ワークフロー分析とスキル評価のための新しいベンチマークを設定します。
データセットと注釈は、Synapse https://www.synapse.org/synapse:syn66401174/filesで公開されています。

要約(オリジナル)

To meet the growing demand for systematic surgical training, wetlab environments have become indispensable platforms for hands-on practice in ophthalmology. Yet, traditional wetlab training depends heavily on manual performance evaluations, which are labor-intensive, time-consuming, and often subject to variability. Recent advances in computer vision offer promising avenues for automated skill assessment, enhancing both the efficiency and objectivity of surgical education. Despite notable progress in ophthalmic surgical datasets, existing resources predominantly focus on real surgeries or isolated tasks, falling short of supporting comprehensive skill evaluation in controlled wetlab settings. To address these limitations, we introduce WetCat, the first dataset of wetlab cataract surgery videos specifically curated for automated skill assessment. WetCat comprises high-resolution recordings of surgeries performed by trainees on artificial eyes, featuring comprehensive phase annotations and semantic segmentations of key anatomical structures. These annotations are meticulously designed to facilitate skill assessment during the critical capsulorhexis and phacoemulsification phases, adhering to standardized surgical skill assessment frameworks. By focusing on these essential phases, WetCat enables the development of interpretable, AI-driven evaluation tools aligned with established clinical metrics. This dataset lays a strong foundation for advancing objective, scalable surgical education and sets a new benchmark for automated workflow analysis and skill assessment in ophthalmology training. The dataset and annotations are publicly available in Synapse https://www.synapse.org/Synapse:syn66401174/files.

arxiv情報

著者 Negin Ghamsarian,Raphael Sznitman,Klaus Schoeffmann,Jens Kowal
発行日 2025-06-10 15:22:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | WetCat: Automating Skill Assessment in Wetlab Cataract Surgery Videos はコメントを受け付けていません

MIRAGE: Multimodal foundation model and benchmark for comprehensive retinal OCT image analysis

要約

人工知能(AI)は、臨床医が光コヒーレンス断層撮影(OCT)などの眼科画像の分析を支援するための基本的なツールになっています。
ただし、AIモデルの開発には広範な注釈が必要であり、既存のモデルが独立した目に見えないデータでパフォーマンスが低下する傾向があります。
ファンデーションモデル(FMS)、広大な非標識データセットでトレーニングされた大規模なAIモデルは、これらの課題を克服することを約束しています。
それにもかかわらず、眼科で利用可能なFMSは、特にセグメンテーションタスクの広範な検証がありません。また、単一のイメージングモダリティに焦点を当てています。
これに関連して、OCTおよびスキャンレーザー眼鏡(SLO)画像の分析のための新しいマルチモーダルFMであるMirageを提案します。
さらに、OCT/SLO分類とセグメンテーションタスクを備えた新しい評価ベンチマークを提案します。
一般的および専門的なFMSおよびセグメンテーション方法との比較は、両方のタイプのタスクにおけるミラージュの優位性を示しており、網膜OCT画像分析のための堅牢なAIシステムの開発の基礎としての適合性を強調しています。
Mirageと評価ベンチマークの両方が公開されています:https://github.com/j-morano/mirage。

要約(オリジナル)

Artificial intelligence (AI) has become a fundamental tool for assisting clinicians in analyzing ophthalmic images, such as optical coherence tomography (OCT). However, developing AI models often requires extensive annotation, and existing models tend to underperform on independent, unseen data. Foundation models (FMs), large AI models trained on vast unlabeled datasets, have shown promise in overcoming these challenges. Nonetheless, available FMs for ophthalmology lack extensive validation, especially for segmentation tasks, and focus on a single imaging modality. In this context, we propose MIRAGE, a novel multimodal FM for the analysis of OCT and scanning laser ophthalmoscopy (SLO) images. Additionally, we propose a new evaluation benchmark with OCT/SLO classification and segmentation tasks. The comparison with general and specialized FMs and segmentation methods shows the superiority of MIRAGE in both types of tasks, highlighting its suitability as a basis for the development of robust AI systems for retinal OCT image analysis. Both MIRAGE and the evaluation benchmark are publicly available: https://github.com/j-morano/MIRAGE.

arxiv情報

著者 José Morano,Botond Fazekas,Emese Sükei,Ronald Fecso,Taha Emre,Markus Gumpinger,Georg Faustmann,Marzieh Oghbaie,Ursula Schmidt-Erfurth,Hrvoje Bogunović
発行日 2025-06-10 15:25:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MIRAGE: Multimodal foundation model and benchmark for comprehensive retinal OCT image analysis はコメントを受け付けていません

GigaSLAM: Large-Scale Monocular SLAM with Hierarchical Gaussian Splats

要約

単眼RGB入力のみを使用して、大規模で無制限の屋外環境での追跡とマッピングは、既存のSLAMシステムに大きな課題をもたらします。
従来のニューラル放射輝度(NERF)および3Dガウススプラッティング(3DG)スラム法は、通常、小さな境界のある屋内設定に限定されます。
これらの課題を克服するために、キッティ、キッティ360、4シーズン、A2D2データセットで実証されているように、キロメートルスケールの屋外環境向けの最初のRGB NERF / 3DGSベースのスラムフレームワークであるGigaslamを紹介します。
私たちのアプローチでは、階層的なスパースボクセルマップ表現を採用しています。そこでは、ガウス系は複数のレベルの詳細でニューラルネットワークによって解読されます。
この設計により、広大で無制限のシーン全体で効率的でスケーラブルなマッピングと高忠実度の視点がレンダリングされます。
フロントエンドトラッキングのために、GigaslamはエピポラージオメトリとPNPアルゴリズムと組み合わせたメトリック深度モデルを使用して、ポーズを正確に推定し、長い軌道上の堅牢なアライメントを維持するために、ワード袋ベースのループ閉鎖メカニズムを組み込みます。
その結果、Gigaslamは、都会の屋外ベンチマークで高精度の追跡と視覚的に忠実なレンダリングを提供し、大規模で長期的なシナリオのための堅牢なSLAMソリューションを確立し、ガウスのスラムシステムの適用可能性をビウンドの屋外環境に大幅に拡張します。
Github:https://github.com/dengkaicq/gigaslam。

要約(オリジナル)

Tracking and mapping in large-scale, unbounded outdoor environments using only monocular RGB input presents substantial challenges for existing SLAM systems. Traditional Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS) SLAM methods are typically limited to small, bounded indoor settings. To overcome these challenges, we introduce GigaSLAM, the first RGB NeRF / 3DGS-based SLAM framework for kilometer-scale outdoor environments, as demonstrated on the KITTI, KITTI 360, 4 Seasons and A2D2 datasets. Our approach employs a hierarchical sparse voxel map representation, where Gaussians are decoded by neural networks at multiple levels of detail. This design enables efficient, scalable mapping and high-fidelity viewpoint rendering across expansive, unbounded scenes. For front-end tracking, GigaSLAM utilizes a metric depth model combined with epipolar geometry and PnP algorithms to accurately estimate poses, while incorporating a Bag-of-Words-based loop closure mechanism to maintain robust alignment over long trajectories. Consequently, GigaSLAM delivers high-precision tracking and visually faithful rendering on urban outdoor benchmarks, establishing a robust SLAM solution for large-scale, long-term scenarios, and significantly extending the applicability of Gaussian Splatting SLAM systems to unbounded outdoor environments. GitHub: https://github.com/DengKaiCQ/GigaSLAM.

arxiv情報

著者 Kai Deng,Yigong Zhang,Jian Yang,Jin Xie
発行日 2025-06-10 15:30:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | GigaSLAM: Large-Scale Monocular SLAM with Hierarchical Gaussian Splats はコメントを受け付けていません

Revisiting Reweighted Risk for Calibration: AURC, Focal Loss, and Inverse Focal Loss

要約

フォーカル損失、逆焦点損失、リスクカバレッジ曲線(AURC)の下の領域など、再重償のリスク機能のいくつかのバリエーションが文献で提案されており、そのキャリブレーション特性に関連して主張が行われています。
ただし、焦点損失と逆焦点損失は、大きく異なる重み付けスキームを提案します。
この論文では、深い学習で一般的に使用されている広範なクラスの加重リスク関数を再訪し、これらの再操作スキームとキャリブレーションエラーの間の原則的なつながりを確立します。
キャリブレーションエラーを最小化することは、選択的分類パラダイムに密接にリンクされており、AURCの正規化されたバリアントを最適化するとキャリブレーションの改善につながることが示されています。
この正規化されたAURCは、逆焦点損失と同様の再重み付け戦略を共有し、校正が望ましい結果である場合、焦点損失は原則が少ないという考えを支持します。
直接的なAURC最適化は、信頼性スコア関数(CSFS)の選択により、より柔軟性を高めます。
勾配ベースの最適化を有効にするために、ソフトランク技術を使用して、正規化されたAURCの微分処方を導入します。
経験的評価は、AURCベースの損失が、さまざまなデータセットとモデルアーキテクチャにわたって競争力のあるクラスでのキャリブレーションパフォーマンスを達成することを示しています。

要約(オリジナル)

Several variants of reweighted risk functionals, such as focal losss, inverse focal loss, and the Area Under the Risk-Coverage Curve (AURC), have been proposed in the literature and claims have been made in relation to their calibration properties. However, focal loss and inverse focal loss propose vastly different weighting schemes. In this paper, we revisit a broad class of weighted risk functions commonly used in deep learning and establish a principled connection between these reweighting schemes and calibration errors. We show that minimizing calibration error is closely linked to the selective classification paradigm and demonstrate that optimizing a regularized variant of the AURC naturally leads to improved calibration. This regularized AURC shares a similar reweighting strategy with inverse focal loss, lending support to the idea that focal loss is less principled when calibration is a desired outcome. Direct AURC optimization offers greater flexibility through the choice of confidence score functions (CSFs). To enable gradient-based optimization, we introduce a differentiable formulation of the regularized AURC using the SoftRank technique. Empirical evaluations demonstrate that our AURC-based loss achieves competitive class-wise calibration performance across a range of datasets and model architectures.

arxiv情報

著者 Han Zhou,Sebastian G. Gruber,Teodora Popordanoska,Matthew B. Blaschko
発行日 2025-06-10 15:31:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Revisiting Reweighted Risk for Calibration: AURC, Focal Loss, and Inverse Focal Loss はコメントを受け付けていません

Hyperbolic Dual Feature Augmentation for Open-Environment

要約

特徴の増強は、特徴空間で新しいサンプルを生成し、双曲線形状を使用して学習アルゴリズムの一般化能力を高める効果的な方法を提供します。
ほとんどの双曲線特徴の増強は、クラスの数が固定されていると仮定して(\ emph {i.e。}、seed classes)、これらのクラスのみのみを生成するため、閉鎖環境に限定されます。
この論文では、膨張環境の双曲線二重特徴拡張法を提案します。これは、双曲線空間で見られたクラスと目に見えない両方のクラスの特徴を増強するものです。
効率的なトレーニングのための実際のデータ分布のより正確な近似を取得するために、(1)メタラーニングによって強化された神経通常の微分方程式モジュールを採用し、見られたクラスと目に見えないクラスの両方の特徴分布を推定します。
(2)次に、双曲線空間内のデータの潜在的な階層構造を保存するために正規者を導入します。
(3)また、双曲線の二重増加損失の上限を導き出し、見られたクラスや目に見えないクラスの無限増強を使用して双曲線モデルを訓練できるようにします。
5つのオープン環境タスクに関する広範な実験:クラスインクリメンタル学習、少数のショットオープンセット認識、少数のショット学習、ゼロショット学習、一般的な画像分類は、我々の方法がオープン環境における双曲線アルゴリズムのパフォーマンスを効果的に向上させることを示しています。

要約(オリジナル)

Feature augmentation generates novel samples in the feature space, providing an effective way to enhance the generalization ability of learning algorithms with hyperbolic geometry. Most hyperbolic feature augmentation is confined to closed-environment, assuming the number of classes is fixed (\emph{i.e.}, seen classes) and generating features only for these classes. In this paper, we propose a hyperbolic dual feature augmentation method for open-environment, which augments features for both seen and unseen classes in the hyperbolic space. To obtain a more precise approximation of the real data distribution for efficient training, (1) we adopt a neural ordinary differential equation module, enhanced by meta-learning, estimating the feature distributions of both seen and unseen classes; (2) we then introduce a regularizer to preserve the latent hierarchical structures of data in the hyperbolic space; (3) we also derive an upper bound for the hyperbolic dual augmentation loss, allowing us to train a hyperbolic model using infinite augmentations for seen and unseen classes. Extensive experiments on five open-environment tasks: class-incremental learning, few-shot open-set recognition, few-shot learning, zero-shot learning, and general image classification, demonstrate that our method effectively enhances the performance of hyperbolic algorithms in open-environment.

arxiv情報

著者 Peilin Yu,Yuwei Wu,Zhi Gao,Xiaomeng Fan,Shuo Yang,Yunde Jia
発行日 2025-06-10 15:34:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Hyperbolic Dual Feature Augmentation for Open-Environment はコメントを受け付けていません

SkipVAR: Accelerating Visual Autoregressive Modeling via Adaptive Frequency-Aware Skipping

要約

視覚的自己回帰(VAR)モデルに関する最近の研究では、生成プロセスの高周波成分以降のステップが推論のレイテンシに不釣り合いに貢献することを強調しています。
ただし、これらの手順に関与する基礎となる計算冗長性は、まだ徹底的に調査されていません。
このホワイトペーパーでは、var推論プロセスの詳細な分析を実施し、2つの主要な非効率性の原因を特定します。ステップ冗長性と無条件のブランチ冗長性です。
ステップの冗長性に対処するために、効率を改善するために不必要な生成ステップを選択的に省略する自動ステップスキップ戦略を提案します。
無条件の枝の冗長性については、条件付きブランチと無条件の枝の間の情報ギャップが最小限であることがわかります。
この洞察を活用して、無条件のブランチの交換を導入します。これは、計算コストを削減するために無条件のブランチをバイパスする手法です。
特に、加速戦略の有効性は、異なるサンプルによって大きく異なることを観察します。
これに動機付けられていると、頻度情報を活用して各インスタンスに最適な加速戦略を動的に選択するサンプル適応フレームワークであるSkipvarを提案します。
高周波情報の役割を評価するために、モデルの感度を微細な詳細にテストする高変動ベンチマークデータセットを紹介します。
広範な実験では、Skipvarが0.88を超える平均SSIMを達成し、全体的な加速度が最大1.81倍で、遺伝的ベンチマークで2.62倍のスピードアップを達成し、モデルの品質を維持しています。
これらの結果は、スケーラブルな自己回帰画像生成のための周波数認識のトレーニングのない適応加速度の有効性を裏付けています。
当社のコードはhttps://github.com/fakerone-li/skipvarで入手でき、公開されています。

要約(オリジナル)

Recent studies on Visual Autoregressive (VAR) models have highlighted that high-frequency components, or later steps, in the generation process contribute disproportionately to inference latency. However, the underlying computational redundancy involved in these steps has yet to be thoroughly investigated. In this paper, we conduct an in-depth analysis of the VAR inference process and identify two primary sources of inefficiency: step redundancy and unconditional branch redundancy. To address step redundancy, we propose an automatic step-skipping strategy that selectively omits unnecessary generation steps to improve efficiency. For unconditional branch redundancy, we observe that the information gap between the conditional and unconditional branches is minimal. Leveraging this insight, we introduce unconditional branch replacement, a technique that bypasses the unconditional branch to reduce computational cost. Notably, we observe that the effectiveness of acceleration strategies varies significantly across different samples. Motivated by this, we propose SkipVAR, a sample-adaptive framework that leverages frequency information to dynamically select the most suitable acceleration strategy for each instance. To evaluate the role of high-frequency information, we introduce high-variation benchmark datasets that test model sensitivity to fine details. Extensive experiments show SkipVAR achieves over 0.88 average SSIM with up to 1.81x overall acceleration and 2.62x speedup on the GenEval benchmark, maintaining model quality. These results confirm the effectiveness of frequency-aware, training-free adaptive acceleration for scalable autoregressive image generation. Our code is available at https://github.com/fakerone-li/SkipVAR and has been publicly released.

arxiv情報

著者 Jiajun Li,Yue Ma,Xinyu Zhang,Qingyan Wei,Songhua Liu,Linfeng Zhang
発行日 2025-06-10 15:35:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SkipVAR: Accelerating Visual Autoregressive Modeling via Adaptive Frequency-Aware Skipping はコメントを受け付けていません

Inherently Faithful Attention Maps for Vision Transformers

要約

学習したバイナリ注意マスクを使用して、参加した画像領域のみが予測に影響を与えることを保証する注意ベースの方法を紹介します。
コンテキストは、オブジェクトの知覚に強く影響し、特にオブジェクトが分散式の背景に表示される場合、偏った表現につながる場合があります。
同時に、多くの画像レベルのオブジェクト中心のタスクには、関連する領域を特定する必要があり、多くの場合コンテキストが必要です。
この難問に対処するために、2段階のフレームワークを提案します。ステージ1は完全な画像を処理してオブジェクトの部分を発見し、タスク関連領域を特定します。ステージ2は、注意マスキングをレバレッジして、これらの領域に受容フィールドを制限し、潜在的に偽りの情報をフィルタリングしながら集中的な分析を可能にします。
両方の段階が共同でトレーニングされているため、ステージ2がステージ1を改良します。さまざまなベンチマーク全体の広範な実験は、私たちのアプローチが偽の相関と分散型の背景に対する堅牢性を大幅に改善することを示しています。

要約(オリジナル)

We introduce an attention-based method that uses learned binary attention masks to ensure that only attended image regions influence the prediction. Context can strongly affect object perception, sometimes leading to biased representations, particularly when objects appear in out-of-distribution backgrounds. At the same time, many image-level object-centric tasks require identifying relevant regions, often requiring context. To address this conundrum, we propose a two-stage framework: stage 1 processes the full image to discover object parts and identify task-relevant regions, while stage 2 leverages input attention masking to restrict its receptive field to these regions, enabling a focused analysis while filtering out potentially spurious information. Both stages are trained jointly, allowing stage 2 to refine stage 1. Extensive experiments across diverse benchmarks demonstrate that our approach significantly improves robustness against spurious correlations and out-of-distribution backgrounds.

arxiv情報

著者 Ananthu Aniraj,Cassio F. Dantas,Dino Ienco,Diego Marcos
発行日 2025-06-10 15:41:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Inherently Faithful Attention Maps for Vision Transformers はコメントを受け付けていません