S2CFormer: Reorienting Learned Image Compression from Spatial Interaction to Channel Aggregation

要約

トランスは、学習した画像圧縮(LIC)で大幅に成功しており、非線形変換の主流の選択肢としてスウィン変圧器が浮上しています。
一般的な信念は、彼らの洗練された空間的操作が彼らの有効性に最も貢献するということです。
ただし、変圧器アーキテクチャ内のフィードフォワードネットワーク(FFN)ベースのチャネル集約モジュールの重要な役割はほとんど見落とされており、空間操作の過剰設計は、デコードレイテンシとR-Dパフォーマンスの間の最適ではないトレードオフにつながります。
この論文では、LICの変圧器の能力の背後にある重要な要因を再評価します。
空間操作をアイデンティティマッピングに置き換えることで、チャネル操作のみが主要な方法のR-Dパフォーマンスにアプローチできることに驚いています。
このパフォーマンスの強固な下限は、Channel Aggregationの存在が競争力のあるパフォーマンスを達成するためにはChannel Aggregationの存在がより重要であることを強調していますが、以前は複雑な空間的相互作用は部分的に冗長です。
この洞察に基づいて、「S2CFORMER」パラダイムを開始します。これは、空間的相互作用からチャネル集約までのLICの焦点を再配分する一般的なアーキテクチャです。
S2CFORMERの2つのインスタンス化:S2C-CONVとS2C-Attentionを提示します。
それぞれが空間相互作用のためのシンプルな演算子を組み込み、LICモデルの非線形変換ブロックとして機能します。
両方のモデルは、最先端の(SOTA)R-Dパフォーマンスを示し、デコード速度が大幅に高速であることを示しています。
また、これらの結果は、高度なFFN構造のさらなる調査を動機付け、モデルの効率を維持しながらR-Dパフォーマンスを向上させます。
これらの基礎を使用して、さまざまなS2CFORMERインスタンス化の強度を組み合わせた強化されたLICモデルであるS2C-Hybridを導入します。
このモデルは、いくつかのデータセット上のすべての既存のメソッドを上回り、効率的で高性能LICの新しいベンチマークを設定します。

要約(オリジナル)

Transformers have achieved significant success in learned image compression (LIC), with Swin Transformers emerging as the mainstream choice for nonlinear transforms. A common belief is that their sophisticated spatial operations contribute most to their efficacy. However, the crucial role of the feed-forward network (FFN) based Channel Aggregation module within the transformer architecture has been largely overlooked, and the over-design of spatial operations leads to a suboptimal trade-off between decoding latency and R-D performance. In this paper, we reevaluate the key factors behind the competence of transformers in LIC. By replacing spatial operations with identity mapping, we are surprised to find that channel operations alone can approach the R-D performance of the leading methods. This solid lower bound of performance emphasizes that the presence of channel aggregation is more essential for the LIC model to achieve competitive performance, while the previously complex spatial interactions are partly redundant. Based on this insight, we initiate the ‘S2CFormer’ paradigm, a general architecture that reorients the focus of LIC from Spatial Interaction to Channel Aggregation. We present two instantiations of the S2CFormer: S2C-Conv, and S2C-Attention. Each one incorporates a simple operator for spatial interaction and serves as nonlinear transform blocks for our LIC models. Both models demonstrate state-of-the-art (SOTA) R-D performance and significantly faster decoding speed. These results also motivate further exploration of advanced FFN structures to enhance the R-D performance while maintaining model efficiency. With these foundations, we introduce S2C-Hybrid, an enhanced LIC model that combines the strengths of different S2CFormer instantiations. This model outperforms all the existing methods on several datasets, setting a new benchmark for efficient and high-performance LIC.

arxiv情報

著者 Yunuo Chen,Qian Li,Bing He,Donghui Feng,Ronghua Wu,Qi Wang,Li Song,Guo Lu,Wenjun Zhang
発行日 2025-02-14 18:30:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | S2CFormer: Reorienting Learned Image Compression from Spatial Interaction to Channel Aggregation はコメントを受け付けていません

ReStyle3D: Scene-Level Appearance Transfer with Semantic Correspondences

要約

Restyle3Dを紹介します。これは、単一のスタイルの画像から複数のビューで表される現実世界のシーンへのシーンレベルの外観転送の新しいフレームワークです。
この方法は、明示的なセマンティック対応とマルチビューの一貫性を組み合わせて、正確でコヒーレントなスタイリライゼーションを実現します。
参照スタイルをグローバルに適用する従来のスタイリライゼーション方法とは異なり、Restyle3Dはオープンポジブルセグメンテーションを使用して、スタイル画像と実際の画像の間に密集したインスタンスレベルの対応を確立します。
これにより、各オブジェクトが意味的に一致したテクスチャで様式化されます。
最初に、拡散モデルのトレーニングなしのセマンティックアテナンスメカニズムを使用して、スタイルを単一ビューに転送します。
次に、単眼の深さとピクセルごとの対応によって導かれる学習したワープアンドリファインネットワークを介して、スタイリライゼーションを追加のビューに持ち上げます。
実験は、Restyle3Dが、構造の保存、知覚スタイルの類似性、およびマルチビューコヒーレンスの以前の方法よりも一貫して優れていることを示しています。
ユーザー調査は、写真を整えた、意味的に忠実な結果を生み出す能力をさらに検証します。
インテリアデザイン、仮想ステージング、および3D結合的なスタイリライゼーションの新しいアプリケーションをサポートするために、当社のコード、前提型モデル、およびデータセットが公開されます。

要約(オリジナル)

We introduce ReStyle3D, a novel framework for scene-level appearance transfer from a single style image to a real-world scene represented by multiple views. The method combines explicit semantic correspondences with multi-view consistency to achieve precise and coherent stylization. Unlike conventional stylization methods that apply a reference style globally, ReStyle3D uses open-vocabulary segmentation to establish dense, instance-level correspondences between the style and real-world images. This ensures that each object is stylized with semantically matched textures. It first transfers the style to a single view using a training-free semantic-attention mechanism in a diffusion model. It then lifts the stylization to additional views via a learned warp-and-refine network guided by monocular depth and pixel-wise correspondences. Experiments show that ReStyle3D consistently outperforms prior methods in structure preservation, perceptual style similarity, and multi-view coherence. User studies further validate its ability to produce photo-realistic, semantically faithful results. Our code, pretrained models, and dataset will be publicly released, to support new applications in interior design, virtual staging, and 3D-consistent stylization.

arxiv情報

著者 Liyuan Zhu,Shengqu Cai,Shengyu Huang,Gordon Wetzstein,Naji Khosravan,Iro Armeni
発行日 2025-02-14 18:54:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | ReStyle3D: Scene-Level Appearance Transfer with Semantic Correspondences はコメントを受け付けていません

Simplifying DINO via Coding Rate Regularization

要約

DINOとDINOV2は、大規模で無効な画像データから表現を学習するために広く使用されている2つのモデルファミリです。
彼らの学んだ表現は、多くの場合、画像分類やセグメンテーションなどの下流タスクの最先端のパフォーマンスを可能にします。
しかし、彼らは多くの経験的に動機付けられた設計の選択を採用しており、彼らのトレーニングパイプラインは非常に複雑で不安定です – 多くのハイパーパラメーターは、表現が崩壊しないように慎重に調整する必要があります – これはそれらを改善または新しいドメインに適応させるのがかなりの困難をもたらします

この作業では、トレーニング前のパイプラインでこのような運動型の特異性を削除できると仮定し、表現の崩壊を避けるために損失関数に明示的なコーディング速度項を追加するだけです。
その結果、それぞれSimdinoとSimdinov2と呼ばれるDinoとDinov2の非常に単純化されたバリアントを取得します。
驚くべきことに、これらの単純化されたモデルは、ネットワークアーキテクチャやハイパーパラメーターなど、さまざまな設計の選択肢に対してより堅牢であり、下流タスクのパフォーマンスで測定され、対応するDINOおよびDINOV2モデルのパレート改善を提供する高品質の表現を学習します。
この作業は、デザインの原則を単純化するために、深い学習の経験的実践を改善する可能性を強調しています。

要約(オリジナル)

DINO and DINOv2 are two model families being widely used to learn representations from unlabeled imagery data at large scales. Their learned representations often enable state-of-the-art performance for downstream tasks, such as image classification and segmentation. However, they employ many empirically motivated design choices and their training pipelines are highly complex and unstable — many hyperparameters need to be carefully tuned to ensure that the representations do not collapse — which poses considerable difficulty to improving them or adapting them to new domains. In this work, we posit that we can remove most such-motivated idiosyncrasies in the pre-training pipelines, and only need to add an explicit coding rate term in the loss function to avoid collapse of the representations. As a result, we obtain highly simplified variants of the DINO and DINOv2 which we call SimDINO and SimDINOv2, respectively. Remarkably, these simplified models are more robust to different design choices, such as network architecture and hyperparameters, and they learn even higher-quality representations, measured by performance on downstream tasks, offering a Pareto improvement over the corresponding DINO and DINOv2 models. This work highlights the potential of using simplifying design principles to improve the empirical practice of deep learning.

arxiv情報

著者 Ziyang Wu,Jingyuan Zhang,Druv Pai,XuDong Wang,Chandan Singh,Jianwei Yang,Jianfeng Gao,Yi Ma
発行日 2025-02-14 18:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Simplifying DINO via Coding Rate Regularization はコメントを受け付けていません

Region-Adaptive Sampling for Diffusion Transformers

要約

拡散モデル(DM)は、多様なドメイン全体の生成タスクの主要な選択となっています。
ただし、複数のシーケンシャルフォワードパスへの依存により、リアルタイムのパフォーマンスが大幅に制限されます。
以前の加速方法は、主にサンプリングステップの数を減らすか、中間結果の再利用に焦点を合わせており、畳み込みのU-NET構造の制約のために画像内の空間領域全体の変動を活用できません。
さまざまな数のトークンを処理する際の拡散変圧器(DIT)の柔軟性を活用することにより、DITモデルの焦点に基づいて画像内の領域に異なるサンプリング比を動的に割り当てる斬新なトレーニングフリーサンプリング戦略であるRASを導入します。
私たちの重要な観察では、各サンプリングステップ中に、モデルは意味的に意味のある領域に集中し、これらの焦点領域は連続したステップにわたって強い連続性を示すことです。
この洞察を活用して、RASは現在焦点を合わせている地域のみを更新し、他の領域は前のステップからのキャッシュノイズを使用して更新されます。
モデルの焦点は、前のステップからの出力に基づいて決定され、観察した時間的一貫性を活用します。
安定した拡散3とLumina-Next-T2IでRAを評価し、それぞれ最大2.36倍と2.51倍までのスピードアップを達成し、生成品質の低下を最小限に抑えます。
さらに、ユーザー調査では、RASが1.6倍のスピードアップを達成しながら、人間の評価の下で同等の品質を提供することが明らかになりました。
私たちのアプローチは、より効率的な拡散トランスに向けて重要な一歩を踏み出し、リアルタイムアプリケーションの可能性を高めます。

要約(オリジナル)

Diffusion models (DMs) have become the leading choice for generative tasks across diverse domains. However, their reliance on multiple sequential forward passes significantly limits real-time performance. Previous acceleration methods have primarily focused on reducing the number of sampling steps or reusing intermediate results, failing to leverage variations across spatial regions within the image due to the constraints of convolutional U-Net structures. By harnessing the flexibility of Diffusion Transformers (DiTs) in handling variable number of tokens, we introduce RAS, a novel, training-free sampling strategy that dynamically assigns different sampling ratios to regions within an image based on the focus of the DiT model. Our key observation is that during each sampling step, the model concentrates on semantically meaningful regions, and these areas of focus exhibit strong continuity across consecutive steps. Leveraging this insight, RAS updates only the regions currently in focus, while other regions are updated using cached noise from the previous step. The model’s focus is determined based on the output from the preceding step, capitalizing on the temporal consistency we observed. We evaluate RAS on Stable Diffusion 3 and Lumina-Next-T2I, achieving speedups up to 2.36x and 2.51x, respectively, with minimal degradation in generation quality. Additionally, a user study reveals that RAS delivers comparable qualities under human evaluation while achieving a 1.6x speedup. Our approach makes a significant step towards more efficient diffusion transformers, enhancing their potential for real-time applications.

arxiv情報

著者 Ziming Liu,Yifan Yang,Chengruidong Zhang,Yiqi Zhang,Lili Qiu,Yang You,Yuqing Yang
発行日 2025-02-14 18:59:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Region-Adaptive Sampling for Diffusion Transformers はコメントを受け付けていません

MM-RLHF: The Next Step Forward in Multimodal LLM Alignment

要約

マルチモーダルの大手言語モデル(MLLM)の顕著な進歩にもかかわらず、ほとんどの最先端のモデルは人間の好みと完全に整合していません。
このギャップは、現在のアライメント研究が主に特定の領域で進歩を達成したため(例えば、幻覚の減少)、人間の好みを持つモデルを整列させることがMLLM能力を体系的に強化できるかどうかのより広範な問題がほとんどないままです。
この目的のために、MM-RLHFを導入します。これは、$ \ mathbf {120k} $微調整された、人間が解決した選好の比較ペアを含むデータセットです。
このデータセットは、既存のリソースに対する実質的な進歩を表し、優れたサイズ、多様性、注釈の粒度、品質を提供します。
このデータセットを活用して、報酬モデルの品質とアライメントアルゴリズムの効率の両方を改善するためのいくつかの重要な革新を提案します。
特に、スコアを割り当てる前にモデル出力の批評を生成する批評ベースの報酬モデルを導入し、従来のスカラー報酬メカニズムと比較して、解釈可能性とより有益なフィードバックを提供します。
さらに、動的報酬スケーリングを提案します。これは、報酬信号に応じて各サンプルの損失重量を調整する方法であり、それにより高品質の比較ペアの使用を最適化します。
私たちのアプローチは、$ \ mathbf {10} $の個別の寸法と$ \ mathbf {27} $ベンチマークで厳密に評価されており、結果がモデルパフォーマンスの大幅かつ一貫した改善を示しています。
具体的には、MM-RLHFを備えた微調整LLAVA-OV-7Bとアライメントアルゴリズムは、$ \ MATHBF {19.5} $%の会話能力の増加と$ \ MATHBF {60} $%の安全性の改善につながります。
優先データセット、報酬モデル、トレーニング、評価コード、および報酬モデリングと安全ベンチマークをオープンソーリングしました。
詳細については、https://mm-rlhf.github.ioのプロジェクトページをご覧ください。

要約(オリジナル)

Despite notable advancements in Multimodal Large Language Models (MLLMs), most state-of-the-art models have not undergone thorough alignment with human preferences. This gap exists because current alignment research has primarily achieved progress in specific areas (e.g., hallucination reduction), while the broader question of whether aligning models with human preferences can systematically enhance MLLM capability remains largely unexplored. To this end, we introduce MM-RLHF, a dataset containing $\mathbf{120k}$ fine-grained, human-annotated preference comparison pairs. This dataset represents a substantial advancement over existing resources, offering superior size, diversity, annotation granularity, and quality. Leveraging this dataset, we propose several key innovations to improve both the quality of reward models and the efficiency of alignment algorithms. Notably, we introduce a Critique-Based Reward Model, which generates critiques of model outputs before assigning scores, offering enhanced interpretability and more informative feedback compared to traditional scalar reward mechanisms. Additionally, we propose Dynamic Reward Scaling, a method that adjusts the loss weight of each sample according to the reward signal, thereby optimizing the use of high-quality comparison pairs. Our approach is rigorously evaluated across $\mathbf{10}$ distinct dimensions and $\mathbf{27}$ benchmarks, with results demonstrating significant and consistent improvements in model performance. Specifically, fine-tuning LLaVA-ov-7B with MM-RLHF and our alignment algorithm leads to a $\mathbf{19.5}$% increase in conversational abilities and a $\mathbf{60}$% improvement in safety. We have open-sourced the preference dataset, reward model, training and evaluation code, as well as reward modeling and safety benchmarks. For more details, please visit our project page: https://mm-rlhf.github.io.

arxiv情報

著者 Yi-Fan Zhang,Tao Yu,Haochen Tian,Chaoyou Fu,Peiyan Li,Jianshu Zeng,Wulin Xie,Yang Shi,Huanyu Zhang,Junkang Wu,Xue Wang,Yibo Hu,Bin Wen,Fan Yang,Zhang Zhang,Tingting Gao,Di Zhang,Liang Wang,Rong Jin,Tieniu Tan
発行日 2025-02-14 18:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | MM-RLHF: The Next Step Forward in Multimodal LLM Alignment はコメントを受け付けていません

Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding

要約

この論文では、3D視覚的接地のための効率的なマルチレベルの畳み込みアーキテクチャを提案します。
従来の方法は、2段階またはポイントベースのアーキテクチャにより、リアルタイム推論の要件を満たすことが困難です。
3Dオブジェクト検出におけるマルチレベルの完全にスパースの畳み込みアーキテクチャの成功に触発され、この技術的なルートに従って新しい3Dビジュアル接地フレームワークを構築することを目指しています。
ただし、3Dの視覚的接地タスクのように、3Dシーンの表現はテキスト機能と深く相互作用する必要があります。ボクセル機能の大量により、この相互作用にはまばらな畳み込みベースのアーキテクチャは非効率的です。
この目的のために、段階的な領域の剪定とターゲットの完了により、3Dシーンの表現とテキスト機能を効率的に融合させるために、テキスト誘導剪定(TGP)と完了ベースの追加(CBA)を提案します。
具体的には、TGPは3Dシーンの表現を繰り返して控えめにし、したがって、ボクセル機能を横断的にテキスト機能と効率的に相互作用させます。
繊細な幾何学的情報への剪定の影響を軽減するために、CBAは、無視できる計算オーバーヘッドでボクセルの完了によってオーバープルーの領域を適応的に固定します。
以前の単一段階の方法と比較して、我々の方法は最高の推論速度を達成し、以前の最速の方法を100 \%FPSで上回ります。
また、私たちの方法は、2段階の方法と比較して最先端の精度を達成します。ScanReferのACC@0.5の$+1.13 $ $ LEAD、NR3DとSR3Dでそれぞれ$+2.6 $および$+3.2 $のリードがあります。
このコードは、\ href {https://github.com/gwxuan/tsp3d} {https://github.com/gwxuan/tsp3d}で利用できます。

要約(オリジナル)

In this paper, we propose an efficient multi-level convolution architecture for 3D visual grounding. Conventional methods are difficult to meet the requirements of real-time inference due to the two-stage or point-based architecture. Inspired by the success of multi-level fully sparse convolutional architecture in 3D object detection, we aim to build a new 3D visual grounding framework following this technical route. However, as in 3D visual grounding task the 3D scene representation should be deeply interacted with text features, sparse convolution-based architecture is inefficient for this interaction due to the large amount of voxel features. To this end, we propose text-guided pruning (TGP) and completion-based addition (CBA) to deeply fuse 3D scene representation and text features in an efficient way by gradual region pruning and target completion. Specifically, TGP iteratively sparsifies the 3D scene representation and thus efficiently interacts the voxel features with text features by cross-attention. To mitigate the affect of pruning on delicate geometric information, CBA adaptively fixes the over-pruned region by voxel completion with negligible computational overhead. Compared with previous single-stage methods, our method achieves top inference speed and surpasses previous fastest method by 100\% FPS. Our method also achieves state-of-the-art accuracy even compared with two-stage methods, with $+1.13$ lead of Acc@0.5 on ScanRefer, and $+2.6$ and $+3.2$ leads on NR3D and SR3D respectively. The code is available at \href{https://github.com/GWxuan/TSP3D}{https://github.com/GWxuan/TSP3D}.

arxiv情報

著者 Wenxuan Guo,Xiuwei Xu,Ziwei Wang,Jianjiang Feng,Jie Zhou,Jiwen Lu
発行日 2025-02-14 18:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding はコメントを受け付けていません

Eidetic Learning: an Efficient and Provable Solution to Catastrophic Forgetting

要約

壊滅的な忘却 – タスクT1を学習し、他のタスクT2で訓練された後にそれを実行する能力を失うニューラルネットワークの現象 – は、ニューラルネットワークの長年の問題です[McCloskey and Cohen、1989]。
壊滅的な忘却を実証する方法、Eidetic Learningを提示します。
Eidetic Learningでトレーニングされたネットワーク – ここでは、eideticNet-リハーサルやリプレイは必要ありません。
連続した離散タスクを検討し、推論時にeideticNetが補助タスク情報なしで新しいインスタンスを自動的にルーティングする方法を示します。
eideticnetは、少量のエクスパーの混合物層に類似している家族と類似しています。
[2016]そのネットワーク容量はタスク全体で分割され、ネットワーク自体はデータコンディショナルルーティングを実行します。
eideticNetは実装とトレーニングが簡単で、効率的で、パラメーターの数に時間と空間の複雑さが直線的です。
私たちの方法の保証は、トレーニング前と微調整の両方の間に、最新のニューラルネットワークの正規化層を保持します。
さまざまなネットワークアーキテクチャと、eideticNetsが忘れられないものであることを一連のタスクで表示します。
EideticNetsの実際的な利点はかなりのものですが、彼らは有益な開業医と理論家に同様にできると信じています。
トレーニング用コードEideticNetsは、https://github.com/amazon-science/eideticnet-trainingで入手できます。

要約(オリジナル)

Catastrophic forgetting — the phenomenon of a neural network learning a task t1 and losing the ability to perform it after being trained on some other task t2 — is a long-standing problem for neural networks [McCloskey and Cohen, 1989]. We present a method, Eidetic Learning, that provably solves catastrophic forgetting. A network trained with Eidetic Learning — here, an EideticNet — requires no rehearsal or replay. We consider successive discrete tasks and show how at inference time an EideticNet automatically routes new instances without auxiliary task information. An EideticNet bears a family resemblance to the sparsely-gated Mixture-of-Experts layer Shazeer et al. [2016] in that network capacity is partitioned across tasks and the network itself performs data-conditional routing. An EideticNet is easy to implement and train, is efficient, and has time and space complexity linear in the number of parameters. The guarantee of our method holds for normalization layers of modern neural networks during both pre-training and fine-tuning. We show with a variety of network architectures and sets of tasks that EideticNets are immune to forgetting. While the practical benefits of EideticNets are substantial, we believe they can be benefit practitioners and theorists alike. The code for training EideticNets is available at https://github.com/amazon-science/eideticnet-training.

arxiv情報

著者 Nicholas Dronen,Randall Balestriero
発行日 2025-02-14 14:39:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Eidetic Learning: an Efficient and Provable Solution to Catastrophic Forgetting はコメントを受け付けていません

EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling

要約

潜在的な生成モデルは、高品質の画像合成の主要なアプローチとして浮上しています。
これらのモデルは、自動エンコーダーに依存して画像を潜在スペースに圧縮し、その後に生成モデルが続き、潜在的な分布を学習します。
既存の自動エンコーダーには、スケーリングや回転などのセマンティックプレゼントの変換との等容量がなく、生成パフォーマンスを妨げる複雑な潜在スペースをもたらすことを特定します。
これに対処するために、潜在空間での等量性を強化する簡単な正則化アプローチであるEQ-Vaeを提案し、再構成の質を低下させることなくその複雑さを減らします。
EQ-VAEを使用して事前に訓練された自動エンコーダーを微調整することにより、DIT、SIT、Repa、MaskGITを含むいくつかの最先端の生成モデルのパフォーマンスを強化し、DIT-XL/2で7つのエポックで7スピードアップを達成します。
sd-vaeの微調整。
EQ-VAEは、連続的および離散的な自動エンコーダーの両方と互換性があるため、広範囲の潜在的な生成モデルに多用途の強化が提供されます。
プロジェクトページとコード:https://eq-vae.github.io/。

要約(オリジナル)

Latent generative models have emerged as a leading approach for high-quality image synthesis. These models rely on an autoencoder to compress images into a latent space, followed by a generative model to learn the latent distribution. We identify that existing autoencoders lack equivariance to semantic-preserving transformations like scaling and rotation, resulting in complex latent spaces that hinder generative performance. To address this, we propose EQ-VAE, a simple regularization approach that enforces equivariance in the latent space, reducing its complexity without degrading reconstruction quality. By finetuning pre-trained autoencoders with EQ-VAE, we enhance the performance of several state-of-the-art generative models, including DiT, SiT, REPA and MaskGIT, achieving a 7 speedup on DiT-XL/2 with only five epochs of SD-VAE fine-tuning. EQ-VAE is compatible with both continuous and discrete autoencoders, thus offering a versatile enhancement for a wide range of latent generative models. Project page and code: https://eq-vae.github.io/.

arxiv情報

著者 Theodoros Kouzelis,Ioannis Kakogeorgiou,Spyros Gidaris,Nikos Komodakis
発行日 2025-02-14 13:48:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling はコメントを受け付けていません

Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation

要約

注意ベースの方法は、従来の幾何学的深部学習(GDL)モデルを上回り、球状の皮質表面の長距離依存性をモデル化する際の例外的なパフォーマンスを実証しています。
ただし、それらの広範な推論時間と高いメモリは、限られたコンピューティングリソースを備えた大規模なデータセットへのアプリケーションの課題をもたらします。
コンピュータービジョンの状態空間モデルに触発されて、球状の表面に注意を払わないビジョンマンバ(VIM)を紹介し、球状マニホールドに関するデータを分析するためのドメインに依存しないアーキテクチャを提示します。
私たちの方法は、細分化されたicoSphereから導出された三角形のパッチのシーケンスとして球形データを表現することにより、表面のパッチを実現します。
提案された表面視力マンバ(SIM)は、新生児脳からの皮質表面指標を使用して、複数の神経発達表現型回帰タスクで評価されます。
実験結果は、SIMが注意とGDLベースの方法の両方を上回り、ICO-4グリッドパーティションの下での表面視力変圧器(SIT)と比較して、4.8倍の推論を4.8倍高速化し、91.7%のメモリ消費量を達成することを示しています。
感度分析は、SIMが微妙な認知発達パターンを特定する可能性をさらに強調しています。
このコードは、https://github.com/rongzhao-he/surface-vision-mambaで入手できます。

要約(オリジナル)

Attention-based methods have demonstrated exceptional performance in modelling long-range dependencies on spherical cortical surfaces, surpassing traditional Geometric Deep Learning (GDL) models. However, their extensive inference time and high memory demands pose challenges for application to large datasets with limited computing resources. Inspired by the state space model in computer vision, we introduce the attention-free Vision Mamba (Vim) to spherical surfaces, presenting a domain-agnostic architecture for analyzing data on spherical manifolds. Our method achieves surface patching by representing spherical data as a sequence of triangular patches derived from a subdivided icosphere. The proposed Surface Vision Mamba (SiM) is evaluated on multiple neurodevelopmental phenotype regression tasks using cortical surface metrics from neonatal brains. Experimental results demonstrate that SiM outperforms both attention- and GDL-based methods, delivering 4.8 times faster inference and achieving 91.7% lower memory consumption compared to the Surface Vision Transformer (SiT) under the Ico-4 grid partitioning. Sensitivity analysis further underscores the potential of SiM to identify subtle cognitive developmental patterns. The code is available at https://github.com/Rongzhao-He/surface-vision-mamba.

arxiv情報

著者 Rongzhao He,Weihao Zheng,Leilei Zhao,Ying Wang,Dalin Zhu,Dan Wu,Bin Hu
発行日 2025-02-14 14:55:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation はコメントを受け付けていません

Learning to Predict Global Atrial Fibrillation Dynamics from Sparse Measurements

要約

心房細動のカテーテルアブレーション(AF)は、持続性AFでの成功が限られている1サイズのすべての治療で構成されています。
これは、AFのダイナミクスを、シーケンシャルコンタクトマッピングカテーテルによって提供される限られた解像度とカバレッジをマッピングできないためである可能性があり、パーソナライズされたターゲットアブレーションのための効果的な患者の表現型を防ぐことができます。
ここでは、スパース測定からグローバルなAFダイナミクスを再構築するグラフ再発性ニューラルネットワークモデルであるFIBMAPを紹介します。
51の非接触心房録音で訓練および検証されたFIBMAPは、10%の表面被覆率からATRIA全体のダイナミクスを再構築し、ベースラインメソッドと比較して210%低い平均絶対誤差と追跡位相特異点で数桁高いパフォーマンスを達成します。
FIBMAPの臨床的有用性は、実際の接触マッピング記録で実証されており、非接触マッピングに匹敵する再構成の忠実度を実現します。
FIBMAPの状態空間と患者固有のパラメーターは、電気栄養型AFの洞察を提供します。
FIBMAPを臨床診療に統合すると、パーソナライズされたAFケアが可能になり、結果が改善されます。

要約(オリジナル)

Catheter ablation of Atrial Fibrillation (AF) consists of a one-size-fits-all treatment with limited success in persistent AF. This may be due to our inability to map the dynamics of AF with the limited resolution and coverage provided by sequential contact mapping catheters, preventing effective patient phenotyping for personalised, targeted ablation. Here we introduce FibMap, a graph recurrent neural network model that reconstructs global AF dynamics from sparse measurements. Trained and validated on 51 non-contact whole atria recordings, FibMap reconstructs whole atria dynamics from 10% surface coverage, achieving a 210% lower mean absolute error and an order of magnitude higher performance in tracking phase singularities compared to baseline methods. Clinical utility of FibMap is demonstrated on real-world contact mapping recordings, achieving reconstruction fidelity comparable to non-contact mapping. FibMap’s state-spaces and patient-specific parameters offer insights for electrophenotyping AF. Integrating FibMap into clinical practice could enable personalised AF care and improve outcomes.

arxiv情報

著者 Alexander Jenkins,Andrea Cini,Joseph Barker,Alexander Sharp,Arunashis Sau,Varun Valentine,Srushti Valasang,Xinyang Li,Tom Wong,Timothy Betts,Danilo Mandic,Cesare Alippi,Fu Siong Ng
発行日 2025-02-14 09:14:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP | Learning to Predict Global Atrial Fibrillation Dynamics from Sparse Measurements はコメントを受け付けていません