A Wavelet-based Stereo Matching Framework for Solving Frequency Convergence Inconsistency

要約

Raft-stereoのEPE評価メトリックは、低周波数領域と高周波領域で一貫して収束し、反復プロセス中に高周波分解(エッジや薄いオブジェクトなど)が結果として収束することがわかります。
現在の反復方法の性能が限られている根本的な理由は、高周波数と低周波数を区別することなく、すべての周波数成分を一緒に最適化することです。
周波数収束の不一致を解くために、ウェーブレットベースのステレオマッチングフレームワーク(Wavelet-Stereo)を提案します。
具体的には、最初に、離散ウェーブレット変換を使用して、画像を高周波数コンポーネントと低周波数成分に明示的に分解します。
次に、高周波および低周波コンポーネントが2つの異なるマルチスケール周波数特徴抽出器に供給されます。
最後に、初期の高周波機能を微調整することにより、異なる反復ステップで適応洗練された高周波機能を提供するために、反復周波数アダプターを含む新しいLSTMベースの高周波保存アップデートオペレーターを提案します。
高周波数コンポーネントを個別に処理することにより、当社のフレームワークは、エッジの高周波情報と滑らかな領域の低周波情報を同時に改良することができます。
広範な実験は、私たちのウェーブレット・ステレオが最先端の方法よりも優れており、ほぼすべてのメトリックのキッティ2015とキッティ2012リーダーボードの両方で1位にランクされることを示しています。
革新的なフレームワーク(https://github.com/sia-ide/wavelet-stereo)のさらなる調査、アプリケーション、および開発を促進するために、コードと事前に訓練されたモデルを提供します。

要約(オリジナル)

We find that the EPE evaluation metrics of RAFT-stereo converge inconsistently in the low and high frequency regions, resulting high frequency degradation (e.g., edges and thin objects) during the iterative process. The underlying reason for the limited performance of current iterative methods is that it optimizes all frequency components together without distinguishing between high and low frequencies. We propose a wavelet-based stereo matching framework (Wavelet-Stereo) for solving frequency convergence inconsistency. Specifically, we first explicitly decompose an image into high and low frequency components using discrete wavelet transform. Then, the high-frequency and low-frequency components are fed into two different multi-scale frequency feature extractors. Finally, we propose a novel LSTM-based high-frequency preservation update operator containing an iterative frequency adapter to provide adaptive refined high-frequency features at different iteration steps by fine-tuning the initial high-frequency features. By processing high and low frequency components separately, our framework can simultaneously refine high-frequency information in edges and low-frequency information in smooth regions, which is especially suitable for challenging scenes with fine details and textures in the distance. Extensive experiments demonstrate that our Wavelet-Stereo outperforms the state-of-the-art methods and ranks 1st on both the KITTI 2015 and KITTI 2012 leaderboards for almost all metrics. We will provide code and pre-trained models to encourage further exploration, application, and development of our innovative framework (https://github.com/SIA-IDE/Wavelet-Stereo).

arxiv情報

著者 Xiaobao Wei,Jiawei Liu,Dongbo Yang,Junda Cheng,Changyong Shu,Wei Wang
発行日 2025-05-23 15:28:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Wavelet-based Stereo Matching Framework for Solving Frequency Convergence Inconsistency はコメントを受け付けていません

3D Face Reconstruction Error Decomposed: A Modular Benchmark for Fair and Fast Method Evaluation

要約

3Dフェイス再構成の標準ベンチマークメトリック、すなわち幾何学的エラーの計算には、メッシュトリミング、剛性アラインメント、ポイント対応など、多くのステップが必要です。
現在のベンチマークツールは、エラーを測定する最良の方法についてコンセンサスがない場合でも、モノリシックです(これらのステップの特定の組み合わせを実装します)。
モジュール化された3Dフェイス再構成ベンチマーク(M3DFB)のツールキットを提示します。ここでは、エラー計算の基本的なコンポーネントが分離され、交換可能であり、それぞれの効果を定量化できるようにします。
さらに、新しいコンポーネント、すなわち修正を提案し、メッシュトポロジの矛盾に対してペナルティを課す計算効率的なアプローチを提示します。
このツールキットを使用して、2つの実際のデータセットと2つの合成データセットで10の再構築方法で16のエラー推定器をテストします。
重要なことに、広く使用されているICPベースの推定器は、トップ5再建方法の真のランキングを大幅に変えるため、最悪のベンチマークパフォーマンスを提供します。
特に、ICPと真の誤差の相関は0.41になる可能性があります。
さらに、非剛性アライメントは、データセットで3Dランドマークに注釈を付けることの重要性を強調して、大幅な改善(0.90を超える相関)につながります。
最後に、提案された修正スキームは、非剛性ワーピングとともに、最高の非剛性ICPベースの推定器と同等の精度につながりますが、数桁速く実行されます。
当社のオープンソースコードベースは、研究者が各コンポーネントの代替を簡単に比較するために設計されているため、3Dフェイス再構成のベンチマークの進捗状況を加速し、さらに、効果的なトレーニングの正確なエラー推定に依存する学習再構築方法の改善をサポートします。

要約(オリジナル)

Computing the standard benchmark metric for 3D face reconstruction, namely geometric error, requires a number of steps, such as mesh cropping, rigid alignment, or point correspondence. Current benchmark tools are monolithic (they implement a specific combination of these steps), even though there is no consensus on the best way to measure error. We present a toolkit for a Modularized 3D Face reconstruction Benchmark (M3DFB), where the fundamental components of error computation are segregated and interchangeable, allowing one to quantify the effect of each. Furthermore, we propose a new component, namely correction, and present a computationally efficient approach that penalizes for mesh topology inconsistency. Using this toolkit, we test 16 error estimators with 10 reconstruction methods on two real and two synthetic datasets. Critically, the widely used ICP-based estimator provides the worst benchmarking performance, as it significantly alters the true ranking of the top-5 reconstruction methods. Notably, the correlation of ICP with the true error can be as low as 0.41. Moreover, non-rigid alignment leads to significant improvement (correlation larger than 0.90), highlighting the importance of annotating 3D landmarks on datasets. Finally, the proposed correction scheme, together with non-rigid warping, leads to an accuracy on a par with the best non-rigid ICP-based estimators, but runs an order of magnitude faster. Our open-source codebase is designed for researchers to easily compare alternatives for each component, thus helping accelerating progress in benchmarking for 3D face reconstruction and, furthermore, supporting the improvement of learned reconstruction methods, which depend on accurate error estimation for effective training.

arxiv情報

著者 Evangelos Sariyanidi,Claudio Ferrari,Federico Nocentini,Stefano Berretti,Andrea Cavallaro,Birkan Tunc
発行日 2025-05-23 15:28:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | 3D Face Reconstruction Error Decomposed: A Modular Benchmark for Fair and Fast Method Evaluation はコメントを受け付けていません

Knot So Simple: A Minimalistic Environment for Spatial Reasoning

要約

複雑で空間的な推論と操作のためのインタラクティブな環境であるKnotgymを提案します。
Knotgymには、さまざまなレベルの複雑さを持つ目標指向のロープ操作タスクが含まれており、すべて純粋な画像観測から作用する必要があります。
タスクは、結び目の交差の数に基づいて、明確で定量化可能な複雑さの軸に沿って定義され、自然な一般化テストを作成します。
Knotgymには、スケーラブルな開発を可能にする単純な観測スペースがありますが、急性知覚、空間推論、および接地操作の統合における中心的な課題を強調しています。
モデルベースのRL、モデル予測制御、考え方の推論を含むさまざまなクラスの方法を評価し、Knotgymが提示する課題を説明します。
Knotgymはhttps://github.com/lil-lab/knotgymで入手できます。

要約(オリジナル)

We propose KnotGym, an interactive environment for complex, spatial reasoning and manipulation. KnotGym includes goal-oriented rope manipulation tasks with varying levels of complexity, all requiring acting from pure image observations. Tasks are defined along a clear and quantifiable axis of complexity based on the number of knot crossings, creating a natural generalization test. KnotGym has a simple observation space, allowing for scalable development, yet it highlights core challenges in integrating acute perception, spatial reasoning, and grounded manipulation. We evaluate methods of different classes, including model-based RL, model-predictive control, and chain-of-thought reasoning, and illustrate the challenges KnotGym presents. KnotGym is available at https://github.com/lil-lab/knotgym.

arxiv情報

著者 Zizhao Chen,Yoav Artzi
発行日 2025-05-23 15:34:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Knot So Simple: A Minimalistic Environment for Spatial Reasoning はコメントを受け付けていません

Mahalanobis++: Improving OOD Detection via Feature Normalization

要約

分散分布(OOD)の検出例は、安全性クリティアルアプリケーションに信頼できる機械学習モデルを展開するための重要なタスクです。
プレロジット機能に適用されるマハラノビス距離に基づく事後の方法は、ImagenetスケールのOOD検出に最も効果的なものの1つですが、そのパフォーマンスはモデルによって大きく異なります。
この矛盾を特徴規範の強力な変動に結び付け、マハラノビス距離の推定の根底にあるガウスの仮定の深刻な違反を示しています。
特徴の単純な$ \ ell_2 $ $ -normalizationは、この問題を効果的に軽減し、共有共分散マトリックスとの通常分散データの前提とより適切に調整することを示します。
多様なアーキテクチャと事前トレーニングスキーム全体の44モデルに関する広範な実験は、$ \ ell_2 $ -normalizationが従来のマハラノビス距離ベースのアプローチを大幅かつ一貫して改善し、他の最近提案されたOOD検出方法を上回ることを示しています。

要約(オリジナル)

Detecting out-of-distribution (OOD) examples is an important task for deploying reliable machine learning models in safety-critial applications. While post-hoc methods based on the Mahalanobis distance applied to pre-logit features are among the most effective for ImageNet-scale OOD detection, their performance varies significantly across models. We connect this inconsistency to strong variations in feature norms, indicating severe violations of the Gaussian assumption underlying the Mahalanobis distance estimation. We show that simple $\ell_2$-normalization of the features mitigates this problem effectively, aligning better with the premise of normally distributed data with shared covariance matrix. Extensive experiments on 44 models across diverse architectures and pretraining schemes show that $\ell_2$-normalization improves the conventional Mahalanobis distance-based approaches significantly and consistently, and outperforms other recently proposed OOD detection methods.

arxiv情報

著者 Maximilian Mueller,Matthias Hein
発行日 2025-05-23 15:36:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Mahalanobis++: Improving OOD Detection via Feature Normalization はコメントを受け付けていません

CAMME: Adaptive Deepfake Image Detection with Multi-Modal Cross-Attention

要約

洗練されたAIに生成されたディープフェイクの急増は、デジタルメディア認証と社会的セキュリティに重大な課題をもたらします。
既存の検出方法は特定の生成ドメイン内でうまく機能しますが、目に見えないアーキテクチャによって生成される操作に適用されると、有意な性能劣化を示します。これは、生成技術が急速に進化するための基本的な制限です。
camme(クロスアテンションマルチモーダル埋め込み)を提案します。これは、マルチヘッドクロスアテナンスメカニズムを通じて視覚、テキスト、および周波数ドメインの特徴を動的に統合して、堅牢なクロスドメイン一般化を確立することを提案します。
広範な実験は、最先端の方法に対するCammeの優位性を示し、自然なシーンで12.56%、フェイシャルディープフェイクで13.25%の改善をもたらします。
このフレームワークは、自然な画像摂動の下で(91%以上)精度を維持し、それぞれPGDおよびFGSMの敵対的攻撃に対して89.01%および96.14%の精度を達成した例外的な回復力を示しています。
私たちの調査結果は、相互出絶対による補完的なモダリティを統合することで、異種の生成アーキテクチャ全体で信頼できるディープフェイク検出のためのより効果的な決定境界再編成により、より効果的な決定境界再編成が可能になることを検証します。

要約(オリジナル)

The proliferation of sophisticated AI-generated deepfakes poses critical challenges for digital media authentication and societal security. While existing detection methods perform well within specific generative domains, they exhibit significant performance degradation when applied to manipulations produced by unseen architectures–a fundamental limitation as generative technologies rapidly evolve. We propose CAMME (Cross-Attention Multi-Modal Embeddings), a framework that dynamically integrates visual, textual, and frequency-domain features through a multi-head cross-attention mechanism to establish robust cross-domain generalization. Extensive experiments demonstrate CAMME’s superiority over state-of-the-art methods, yielding improvements of 12.56% on natural scenes and 13.25% on facial deepfakes. The framework demonstrates exceptional resilience, maintaining (over 91%) accuracy under natural image perturbations and achieving 89.01% and 96.14% accuracy against PGD and FGSM adversarial attacks, respectively. Our findings validate that integrating complementary modalities through cross-attention enables more effective decision boundary realignment for reliable deepfake detection across heterogeneous generative architectures.

arxiv情報

著者 Naseem Khan,Tuan Nguyen,Amine Bermak,Issa Khalil
発行日 2025-05-23 15:39:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, F.2.2 | CAMME: Adaptive Deepfake Image Detection with Multi-Modal Cross-Attention はコメントを受け付けていません

RBench-V: A Primary Assessment for Visual Reasoning Models with Multi-modal Outputs

要約

GPT-4O、Gemini、およびO3によって例示されたネイティブマルチモーダルモデルとオムニモデルの急速な進歩は、テキストや画像などのモダリティ全体でコンテンツを処理および生成する能力を備えており、知性の進化の重要なマイルストーンを示しています。
視覚的思考プロセスにおけるマルチモーダル出力機能の体系的な評価(マルチモーダルの思考チェーン、M-COT)は非常に重要になります。
ただし、マルチモーダルモデルを評価するための既存のベンチマークは、主にマルチモーダル入力とテキストのみの推論の評価に焦点を当て、マルチモーダル出力を通じて推論の重要性を無視します。
このホワイトペーパーでは、モデルのビジョンを示す可能性のある推論能力を評価するように設計された、rbench-Vと呼ばれるベンチマークを紹介します。
rbench-vを構築するために、数学、物理学、カウント、ゲームをカバーする803の質問を注意深く握手します。
通常、特定の入力モダリティを指定する以前のベンチマークとは異なり、rbench-Vは、新しい画像の生成や推論プロセスをサポートする補助ラインの構築などの画像操作が必要なマルチモーダル出力を中心とした問題を提示します。
O3、Gemini 2.5 Pro、QWEN2.5-VLなどを含む、Rbench-V上の多数のオープンソースモデルを評価します。最高のパフォーマンスモデルであるO3でさえ、Rbench-Vで25.8%の精度を達成し、82.3%の人間スコアをはるかに下回り、現在のモデルがマルチモダルの推論を削減するのに苦労しています。
データとコードはhttps://evalmodels.github.io/rbenchvで入手できます

要約(オリジナル)

The rapid advancement of native multi-modal models and omni-models, exemplified by GPT-4o, Gemini, and o3, with their capability to process and generate content across modalities such as text and images, marks a significant milestone in the evolution of intelligence. Systematic evaluation of their multi-modal output capabilities in visual thinking processes (also known as multi-modal chain of thought, M-CoT) becomes critically important. However, existing benchmarks for evaluating multi-modal models primarily focus on assessing multi-modal inputs and text-only reasoning while neglecting the importance of reasoning through multi-modal outputs. In this paper, we present a benchmark, dubbed RBench-V, designed to assess models’ vision-indispensable reasoning abilities. To construct RBench-V, we carefully hand-pick 803 questions covering math, physics, counting, and games. Unlike previous benchmarks that typically specify certain input modalities, RBench-V presents problems centered on multi-modal outputs, which require image manipulation such as generating novel images and constructing auxiliary lines to support the reasoning process. We evaluate numerous open- and closed-source models on RBench-V, including o3, Gemini 2.5 Pro, Qwen2.5-VL, etc. Even the best-performing model, o3, achieves only 25.8% accuracy on RBench-V, far below the human score of 82.3%, highlighting that current models struggle to leverage multi-modal reasoning. Data and code are available at https://evalmodels.github.io/rbenchv

arxiv情報

著者 Meng-Hao Guo,Xuanyu Chu,Qianrui Yang,Zhe-Han Mo,Yiqing Shen,Pei-lin Li,Xinjie Lin,Jinnian Zhang,Xin-Sheng Chen,Yi Zhang,Kiyohiro Nakayama,Zhengyang Geng,Houwen Peng,Han Hu,Shi-Min Hu
発行日 2025-05-23 15:40:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RBench-V: A Primary Assessment for Visual Reasoning Models with Multi-modal Outputs はコメントを受け付けていません

Clip4Retrofit: Enabling Real-Time Image Labeling on Edge Devices via Cross-Architecture CLIP Distillation

要約

Clip(Contrastive Language-Image Pretraining)などの基礎モデルは、クロスモーダルアライメントを通じてゼロショットと少ないショットの学習を可能にすることにより、ビジョン言語タスクに革命をもたらしました。
ただし、計算の複雑さと大規模なメモリフットプリントにより、画像収集やリアルタイム処理に使用される車内カメラなど、リソース制約のあるエッジデバイスへの展開には不適切です。
この課題に対処するために、Edgeデバイスでのリアルタイムの画像ラベル付けを可能にする効率的なモデル蒸留フレームワークであるClip4retrofitを提案します。
このフレームワークは、コンピューティングパフォーマンスとメモリに厳密な制限にもかかわらず、数千台の車両に改装された費用対効果の高いエッジデバイスであるレトロフィットカメラに展開されます。
私たちのアプローチは、CLIPモデルの知識を軽量の学生モデルに蒸留し、EfficientNet-B3と多層Perceptron(MLP)プロジェクションヘッドを組み合わせて、クロスモーダルアラインメントを維持しながら、計算要件を大幅に削減します。
蒸留モデルが効率とパフォーマンスのバランスをとっており、実際のシナリオでの展開に理想的であることを実証しています。
実験結果は、Clip4retrofitが限られたリソースを備えたエッジデバイスでリアルタイムの画像ラベル付けとオブジェクト識別を実行できることを示しており、既存のシステムを自律的な運転や改造などのアプリケーションに実用的なソリューションを提供します。
この作業は、最先端のビジョン言語モデルとリソースに制約のある環境での展開との間のギャップを橋渡しし、エッジコンピューティングにおける基礎モデルのより広範な採用への道を開いています。

要約(オリジナル)

Foundation models like CLIP (Contrastive Language-Image Pretraining) have revolutionized vision-language tasks by enabling zero-shot and few-shot learning through cross-modal alignment. However, their computational complexity and large memory footprint make them unsuitable for deployment on resource-constrained edge devices, such as in-car cameras used for image collection and real-time processing. To address this challenge, we propose Clip4Retrofit, an efficient model distillation framework that enables real-time image labeling on edge devices. The framework is deployed on the Retrofit camera, a cost-effective edge device retrofitted into thousands of vehicles, despite strict limitations on compute performance and memory. Our approach distills the knowledge of the CLIP model into a lightweight student model, combining EfficientNet-B3 with multi-layer perceptron (MLP) projection heads to preserve cross-modal alignment while significantly reducing computational requirements. We demonstrate that our distilled model achieves a balance between efficiency and performance, making it ideal for deployment in real-world scenarios. Experimental results show that Clip4Retrofit can perform real-time image labeling and object identification on edge devices with limited resources, offering a practical solution for applications such as autonomous driving and retrofitting existing systems. This work bridges the gap between state-of-the-art vision-language models and their deployment in resource-constrained environments, paving the way for broader adoption of foundation models in edge computing.

arxiv情報

著者 Li Zhong,Ahmed Ghazal,Jun-Jun Wan,Frederik Zilly,Patrick Mackens,Joachim E. Vollrath,Bogdan Sorin Coseriu
発行日 2025-05-23 15:42:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Clip4Retrofit: Enabling Real-Time Image Labeling on Edge Devices via Cross-Architecture CLIP Distillation はコメントを受け付けていません

CostFilter-AD: Enhancing Anomaly Detection through Matching Cost Filtering

要約

監視されていない異常検出(UAD)は、通常のサンプルに関して入力画像の異常マスクをローカライズしようとしています。
通常のカウンターパート(再構築ベース)を再構築するか、画像機能の埋め込みスペース(埋め込みベース)を学習することにより、既存のアプローチは、画像レベルまたは機能レベルのマッチングに基本的に依存して異常スコアを導き出します。
多くの場合、このようなマッチングプロセスは不正確でありながら見落とされており、最適な検出につながります。
この問題に対処するために、深さやフローの推定などの古典的なマッチングタスクからUAD問題に借用したコストフィルタリングの概念を紹介します。
このアプローチを{\ em costfilter-ad}と呼びます。
具体的には、最初に入力サンプルと通常のサンプルの間に一致するコストボリュームを構築します。これは、2つの空間寸法と、潜在的な一致をコードする1つのマッチングディメンションを含みます。
これを改良するために、複数の機能レイヤーにわたる注意クエリとして入力観察に導かれるコストボリュームフィルタリングネットワークを提案します。これにより、エッジ構造を維持し、微妙な異常をキャプチャしながら一致するノイズを効果的に抑制します。
一般的な後処理プラグインとして設計されたCostFilter-ADは、再構築ベースまたは埋め込みベースの方法と統合できます。
MVTEC-ADおよびビザベンチマークに関する広範な実験は、シングルクラスとマルチクラスの両方のUADタスクのCostFilter-ADの一般的な利点を検証します。
コードとモデルはhttps://github.com/zhe-sapi/costfilter-adでリリースされます。

要約(オリジナル)

Unsupervised anomaly detection (UAD) seeks to localize the anomaly mask of an input image with respect to normal samples. Either by reconstructing normal counterparts (reconstruction-based) or by learning an image feature embedding space (embedding-based), existing approaches fundamentally rely on image-level or feature-level matching to derive anomaly scores. Often, such a matching process is inaccurate yet overlooked, leading to sub-optimal detection. To address this issue, we introduce the concept of cost filtering, borrowed from classical matching tasks, such as depth and flow estimation, into the UAD problem. We call this approach {\em CostFilter-AD}. Specifically, we first construct a matching cost volume between the input and normal samples, comprising two spatial dimensions and one matching dimension that encodes potential matches. To refine this, we propose a cost volume filtering network, guided by the input observation as an attention query across multiple feature layers, which effectively suppresses matching noise while preserving edge structures and capturing subtle anomalies. Designed as a generic post-processing plug-in, CostFilter-AD can be integrated with either reconstruction-based or embedding-based methods. Extensive experiments on MVTec-AD and VisA benchmarks validate the generic benefits of CostFilter-AD for both single- and multi-class UAD tasks. Code and models will be released at https://github.com/ZHE-SAPI/CostFilter-AD.

arxiv情報

著者 Zhe Zhang,Mingxiu Cai,Hanxiao Wang,Gaochang Wu,Tianyou Chai,Xiatian Zhu
発行日 2025-05-23 15:45:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | CostFilter-AD: Enhancing Anomaly Detection through Matching Cost Filtering はコメントを受け付けていません

RestoreVAR: Visual Autoregressive Generation for All-in-One Image Restoration

要約

安定した拡散などの潜在的な拡散モデル(LDMS)の使用は、オールインワン画像修復(AIOR)メソッドの知覚品質を大幅に改善し、その一般化能力も強化しました。
ただし、これらのLDMベースのフレームワークは、反復的な除去プロセスにより、ゆっくりと推論され、時間に敏感なアプリケーションに対して非実用的になります。
これに対処するために、Restorevarを提案します。これは、$ \ mathbf {10 \ times} $を超える$ \ mathbf {10 \ times} $を達成しながら、復元パフォーマンスでLDMベースのモデルを大幅に上回るための新しい生成アプローチです。
Restorevarは、画像生成のためにスケールスペースの自己回復を実行する最近導入されたアプローチである視覚的自己回帰モデリング(VAR)を活用します。
VARは、計算コストが大幅に削減された、最先端の拡散トランスのパフォーマンスと同等のパフォーマンスを達成します。
これらの利点のVARの利点を最適に活用するために、複雑に設計されたクロスアテナンスメカニズムや、AIORタスクに合わせた潜在的な空間洗練モジュールなど、建築の修正と改善を提案します。
広範な実験では、RestoreVarが生成的なAIORメソッド間で最先端のパフォーマンスを達成すると同時に、強力な一般化能力を示していることが示されています。

要約(オリジナル)

The use of latent diffusion models (LDMs) such as Stable Diffusion has significantly improved the perceptual quality of All-in-One image Restoration (AiOR) methods, while also enhancing their generalization capabilities. However, these LDM-based frameworks suffer from slow inference due to their iterative denoising process, rendering them impractical for time-sensitive applications. To address this, we propose RestoreVAR, a novel generative approach for AiOR that significantly outperforms LDM-based models in restoration performance while achieving over $\mathbf{10\times}$ faster inference. RestoreVAR leverages visual autoregressive modeling (VAR), a recently introduced approach which performs scale-space autoregression for image generation. VAR achieves comparable performance to that of state-of-the-art diffusion transformers with drastically reduced computational costs. To optimally exploit these advantages of VAR for AiOR, we propose architectural modifications and improvements, including intricately designed cross-attention mechanisms and a latent-space refinement module, tailored for the AiOR task. Extensive experiments show that RestoreVAR achieves state-of-the-art performance among generative AiOR methods, while also exhibiting strong generalization capabilities.

arxiv情報

著者 Sudarshan Rajagopalan,Kartik Narayan,Vishal M. Patel
発行日 2025-05-23 15:52:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | RestoreVAR: Visual Autoregressive Generation for All-in-One Image Restoration はコメントを受け付けていません

SHARDeg: A Benchmark for Skeletal Human Action Recognition in Degraded Scenarios

要約

検出、予測、または分類タスクのコンピュータービジョン(CV)モデルは、リアルタイムまたはリソース制約のハードウェアで展開するため、多くの場合、現実の世界で劣化するビデオデータストリームで動作します。
したがって、これらのモデルは劣化したデータに対して堅牢であることが重要ですが、これらの実際の制約を念頭に置いて、最先端(SOTA)モデルはしばしば不十分に評価されます。
これは、リアルタイムおよびエッジで動作する多くのCVパイプラインで重要である骨格のヒトアクション認識(Shar)によって例示されていますが、劣化したデータに対する堅牢性は以前は浅くて一貫性のない評価されていました。
ここでは、最も詳細かつ最大の3DオープンデータセットであるNTU-RGB+D-120で重要な最初のデータ分解ベンチマークを提供することにより、Sharのこの問題に対処し、5つの主要なSharモデルの堅牢性を、実際の問題を表す3つの形態の劣化に評価します。
以前に考慮されていなかった劣化の形態がモデルの精度に大きな影響を与えることを示すことにより、このベンチマークの必要性を実証します。
同じ有効なフレームレートでは、モデルの精度は分解タイプに応じて40%以上変化する可能性があります。
また、分解されたSharデータのフレームの時間的規則性がモデルのパフォーマンスの違いの主要な要因である可能性が高いことを特定し、補間に基づいた単純な緩和アプローチを採用することにより、既存のモデルのパフォーマンスを最大40%増加させることができます。
最後に、私たちのベンチマークが、ラフパス理論に基づいた重要な劣化耐性のSharモデルを特定するのにどのように役立ったかを強調しています。
logsigrnn sharモデルは、SOTAモデルが6%の低いケースのうち5症例で6%のSota Degcnモデルを上回ります。

要約(オリジナル)

Computer vision (CV) models for detection, prediction or classification tasks operate on video data-streams that are often degraded in the real world, due to deployment in real-time or on resource-constrained hardware. It is therefore critical that these models are robust to degraded data, but state of the art (SoTA) models are often insufficiently assessed with these real-world constraints in mind. This is exemplified by Skeletal Human Action Recognition (SHAR), which is critical in many CV pipelines operating in real-time and at the edge, but robustness to degraded data has previously only been shallowly and inconsistently assessed. Here we address this issue for SHAR by providing an important first data degradation benchmark on the most detailed and largest 3D open dataset, NTU-RGB+D-120, and assess the robustness of five leading SHAR models to three forms of degradation that represent real-world issues. We demonstrate the need for this benchmark by showing that the form of degradation, which has not previously been considered, has a large impact on model accuracy; at the same effective frame rate, model accuracy can vary by >40% depending on degradation type. We also identify that temporal regularity of frames in degraded SHAR data is likely a major driver of differences in model performance, and harness this to improve performance of existing models by up to >40%, through employing a simple mitigation approach based on interpolation. Finally, we highlight how our benchmark has helped identify an important degradation-resistant SHAR model based in Rough Path Theory; the LogSigRNN SHAR model outperforms the SoTA DeGCN model in five out of six cases at low frame rates by an average accuracy of 6%, despite trailing the SoTA model by 11-12% on un-degraded data at high frame rates (30 FPS).

arxiv情報

著者 Simon Malzard,Nitish Mital,Richard Walters,Victoria Nockles,Raghuveer Rao,Celso M. De Melo
発行日 2025-05-23 15:52:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SHARDeg: A Benchmark for Skeletal Human Action Recognition in Degraded Scenarios はコメントを受け付けていません