Hyperspectral Vision Transformers for Greenhouse Gas Estimations from Space

要約

Hyperspectralイメージングは​​、詳細なスペクトル情報を提供し、温室効果ガス(GHG)の監視に大きな可能性を秘めています。
ただし、そのアプリケーションは、限られた空間カバレッジとまれな再訪時間によって制約されます。
対照的に、マルチスペクトルイメージングは​​より広い空間的および時間的カバレッジを提供しますが、多くの場合、GHGの検出を強化できるスペクトルの詳細が欠けています。
これらの課題に対処するために、この研究では、マルチスペクトル入力からのハイパースペクトルデータを合成するスペクトルトランスモデルを提案しています。
このモデルは、帯域ごとのマスクされた自動エンコーダーを介して事前に訓練され、その後、空間的に整列したマルチスペクトルヒパーズスペクトル画像ペアで微調整されます。
結果として得られる合成ハイパースペクトルデータは、マルチスペクトル画像の空間的および時間的利点を保持し、マルチスペクトルデータのみを使用することと比較してGHG予測の精度を向上させます。
このアプローチは、スペクトル解像度とカバレッジの間のトレードオフを効果的に橋渡しし、ハイパースペクトルシステムとマルチスペクトルシステムの強さを自己監視の深い学習と組み合わせることにより、大気モニタリングを進める可能性を強調しています。

要約(オリジナル)

Hyperspectral imaging provides detailed spectral information and holds significant potential for monitoring of greenhouse gases (GHGs). However, its application is constrained by limited spatial coverage and infrequent revisit times. In contrast, multispectral imaging offers broader spatial and temporal coverage but often lacks the spectral detail that can enhance GHG detection. To address these challenges, this study proposes a spectral transformer model that synthesizes hyperspectral data from multispectral inputs. The model is pre-trained via a band-wise masked autoencoder and subsequently fine-tuned on spatio-temporally aligned multispectral-hyperspectral image pairs. The resulting synthetic hyperspectral data retain the spatial and temporal benefits of multispectral imagery and improve GHG prediction accuracy relative to using multispectral data alone. This approach effectively bridges the trade-off between spectral resolution and coverage, highlighting its potential to advance atmospheric monitoring by combining the strengths of hyperspectral and multispectral systems with self-supervised deep learning.

arxiv情報

著者 Ruben Gonzalez Avilés,Linus Scheibenreif,Nassim Ait Ali Braham,Benedikt Blumenstiel,Thomas Brunschwiler,Ranjini Guruprasad,Damian Borth,Conrad Albrecht,Paolo Fraccaro,Devyani Lambhate,Johannes Jakubik
発行日 2025-04-23 16:19:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Hyperspectral Vision Transformers for Greenhouse Gas Estimations from Space はコメントを受け付けていません

A Novel Adaptive Hybrid Focal-Entropy Loss for Enhancing Diabetic Retinopathy Detection Using Convolutional Neural Networks

要約

糖尿病性網膜症は、世界中の失明の主な原因であり、AIベースの正確な診断ツールを要求しています。
カテゴリの交差点(CCE)などのマルチクラス分類における従来の損失関数は非常に一般的ですが、特に本質的に挑戦的または重複するクラスの場合、クラスの不均衡と崩壊します。
より高い重症度ステージ4糖尿病網膜症などの例の数に重い不均衡が存在するため、クラス0のような非常に初期の段階と比較してクラスはクラスのバランスを達成することが重要です。
この目的のために、少数派のクラスに焦点を合わせて挑戦的なサンプルを強調するために、局所喪失とエントロピー損失のアイデアを適応重み付けと組み合わせた適応ハイブリッド焦点エントロピー損失を提案します。
AHFEによる糖尿病性網膜症の検出に適用された最先端のモデルは、良好なパフォーマンスの改善を明らかにし、99.79%のResNET50のトップパフォーマンス、98.92%で98.92%、Xception、97.84%、および93.62%の精度でのInceptionV3を示しています。
これは、AHFEが複雑で不均衡な医療データセットのAI駆動型診断の強化をどのように促進するかに光を当てます。

要約(オリジナル)

Diabetic retinopathy is a leading cause of blindness around the world and demands precise AI-based diagnostic tools. Traditional loss functions in multi-class classification, such as Categorical Cross-Entropy (CCE), are very common but break down with class imbalance, especially in cases with inherently challenging or overlapping classes, which leads to biased and less sensitive models. Since a heavy imbalance exists in the number of examples for higher severity stage 4 diabetic retinopathy, etc., classes compared to those very early stages like class 0, achieving class balance is key. For this purpose, we propose the Adaptive Hybrid Focal-Entropy Loss which combines the ideas of focal loss and entropy loss with adaptive weighting in order to focus on minority classes and highlight the challenging samples. The state-of-the art models applied for diabetic retinopathy detection with AHFE revealed good performance improvements, indicating the top performances of ResNet50 at 99.79%, DenseNet121 at 98.86%, Xception at 98.92%, MobileNetV2 at 97.84%, and InceptionV3 at 93.62% accuracy. This sheds light into how AHFE promotes enhancement in AI-driven diagnostics for complex and imbalanced medical datasets.

arxiv情報

著者 Santhosh Malarvannan,Pandiyaraju V,Shravan Venkatraman,Abeshek A,Priyadarshini B,Kannan A
発行日 2025-04-23 16:24:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 68U10, 92C55, cs.AI, cs.CV, cs.LG, eess.IV, I.2.10 | A Novel Adaptive Hybrid Focal-Entropy Loss for Enhancing Diabetic Retinopathy Detection Using Convolutional Neural Networks はコメントを受け付けていません

High-Quality Cloud-Free Optical Image Synthesis Using Multi-Temporal SAR and Contaminated Optical Data

要約

雲の覆いと衛星の長い再訪サイクルによって引き起こされるギャップに対処することは、リモートセンシングアプリケーションをサポートするために重要なデータを提供するために不可欠です。
このペーパーでは、特にクラウドカバーを備えた複雑なシナリオでは、光学データ合成の欠落の課題に取り組んでいます。
Crsynthnetを提案します。Crsynthnetは、精度を向上させるために、ダウンアップブロックや融合注意などの革新的な設計モジュールを組み込んだ新しい画像合成ネットワークです。
実験結果は、Crsynthnetの有効性を検証し、構造の詳細の回復、スペクトルの維持、および比較方法によって生成されるものをはるかに超える優れた視覚効果を達成することに大幅な改善を示します。
複数のメトリックにわたって定量的な改善を達成します:26.978のピーク信号対雑音比(PSNR)、0.648の構造類似性インデックス測定(SSIM)、および0.050のルート平均平方根誤差(RMSE)。
さらに、この研究では、欠落している光学データ合成研究で雲のカバーの課題に対処するために特別に設計された貴重なリソースであるTCSEN12データセットを作成します。
データセットには、クラウドで覆われた画像と以前の画像をレバレッジして、後の画像を予測するために、実際のシナリオの現実的な表現を提供します。
この研究は、光学衛星画像合成タスクの実用的な方法と貴重なリソースを提供します。

要約(オリジナル)

Addressing gaps caused by cloud cover and the long revisit cycle of satellites is vital for providing essential data to support remote sensing applications. This paper tackles the challenges of missing optical data synthesis, particularly in complex scenarios with cloud cover. We propose CRSynthNet, a novel image synthesis network that incorporates innovative designed modules such as the DownUp Block and Fusion Attention to enhance accuracy. Experimental results validate the effectiveness of CRSynthNet, demonstrating substantial improvements in restoring structural details, preserving spectral consist, and achieving superior visual effects that far exceed those produced by comparison methods. It achieves quantitative improvements across multiple metrics: a peak signal-to-noise ratio (PSNR) of 26.978, a structural similarity index measure (SSIM) of 0.648, and a root mean square error (RMSE) of 0.050. Furthermore, this study creates the TCSEN12 dataset, a valuable resource specifically designed to address cloud cover challenges in missing optical data synthesis study. The dataset uniquely includes cloud-covered images and leverages earlier image to predict later image, offering a realistic representation of real-world scenarios. This study offer practical method and valuable resources for optical satellite image synthesis task.

arxiv情報

著者 Chenxi Duan
発行日 2025-04-23 16:44:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | High-Quality Cloud-Free Optical Image Synthesis Using Multi-Temporal SAR and Contaminated Optical Data はコメントを受け付けていません

BadVideo: Stealthy Backdoor Attack against Text-to-Video Generation

要約

テキストツービデオ(T2V)の生成モデルは、急速に進歩し、エンターテイメント、教育、マーケティングなどの分野で広範なアプリケーションを発見しました。
ただし、これらのモデルの敵対的な脆弱性はめったに調査されません。
T2V生成タスクでは、生成されたビデオには、環境要素、二次オブジェクト、追加の詳細など、テキストプロンプトで明示的に指定されていない実質的な冗長な情報が含まれており、悪意のある攻撃者が隠された有害なコンテンツを埋め込む機会を提供することがよくあります。
この固有の冗長性を活用して、T2V生成に合わせた最初のバックドア攻撃フレームワークであるBadvideoを紹介します。
私たちの攻撃は、2つの重要な戦略を通じてターゲットの敵対的な出力を設計することに焦点を当てています。(1)異なる空間的特徴を組み合わせて悪意のある情報をエンコードする時空間的構成。
(2)悪意のある情報を伝えるために、時間の経過とともに冗長な要素の変換を導入する動的要素変換。
これらの戦略に基づいて、攻撃者の悪意のあるターゲットは、ユーザーのテキスト指示とシームレスに統合され、高いステルス性を提供します。
さらに、ビデオの時間的次元を活用することにより、私たちの攻撃は、主に個々のフレーム内の空間情報を分析する従来のコンテンツモデレーションシステムを正常に回避します。
広範な実験は、BadVideoが元のセマンティクスを維持し、クリーンな入力の優れたパフォーマンスを維持しながら、高い攻撃の成功率を達成することを示しています。
全体として、私たちの仕事は、T2Vモデルの敵対的な脆弱性を明らかにし、潜在的なリスクと誤用に注意を向けています。
プロジェクトページはhttps://wrt2000.github.io/badvideo2025/にあります。

要約(オリジナル)

Text-to-video (T2V) generative models have rapidly advanced and found widespread applications across fields like entertainment, education, and marketing. However, the adversarial vulnerabilities of these models remain rarely explored. We observe that in T2V generation tasks, the generated videos often contain substantial redundant information not explicitly specified in the text prompts, such as environmental elements, secondary objects, and additional details, providing opportunities for malicious attackers to embed hidden harmful content. Exploiting this inherent redundancy, we introduce BadVideo, the first backdoor attack framework tailored for T2V generation. Our attack focuses on designing target adversarial outputs through two key strategies: (1) Spatio-Temporal Composition, which combines different spatiotemporal features to encode malicious information; (2) Dynamic Element Transformation, which introduces transformations in redundant elements over time to convey malicious information. Based on these strategies, the attacker’s malicious target seamlessly integrates with the user’s textual instructions, providing high stealthiness. Moreover, by exploiting the temporal dimension of videos, our attack successfully evades traditional content moderation systems that primarily analyze spatial information within individual frames. Extensive experiments demonstrate that BadVideo achieves high attack success rates while preserving original semantics and maintaining excellent performance on clean inputs. Overall, our work reveals the adversarial vulnerability of T2V models, calling attention to potential risks and misuse. Our project page is at https://wrt2000.github.io/BadVideo2025/.

arxiv情報

著者 Ruotong Wang,Mingli Zhu,Jiarong Ou,Rui Chen,Xin Tao,Pengfei Wan,Baoyuan Wu
発行日 2025-04-23 17:34:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | BadVideo: Stealthy Backdoor Attack against Text-to-Video Generation はコメントを受け付けていません

DreamO: A Unified Framework for Image Customization

要約

最近、画像のカスタマイズに関する広範な研究(例:アイデンティティ、主題、スタイル、背景など)は、大規模な生成モデルの強力なカスタマイズ機能を示しています。
ただし、ほとんどのアプローチは特定のタスク向けに設計されており、さまざまなタイプの状態を組み合わせて一般化可能性を制限します。
画像のカスタマイズのための統一されたフレームワークを開発することは、依然としてオープンな課題です。
このペーパーでは、複数の条件のシームレスな統合を促進しながら、幅広いタスクをサポートするように設計された画像カスタマイズフレームワークであるDreamoを紹介します。
具体的には、Dreamoは拡散トランス(DIT)フレームワークを利用して、さまざまなタイプの入力を均一に処理します。
トレーニング中に、さまざまなカスタマイズタスクを含む大規模なトレーニングデータセットを構築し、参照画像からの関連情報の正確なクエリを促進するための機能ルーティング制約を導入します。
さらに、特定のプレースホルダーを特定の位置で条件に関連付けるプレースホルダー戦略を設計し、生成された結果の条件の配置を制御できるようにします。
さらに、3つの段階で構成される進歩的なトレーニング戦略を採用しています。ベースラインの一貫性を確立するための限られたデータを持つ単純なタスクに焦点を当てた初期段階、カスタマイズ機能を包括的に強化するための本格的なトレーニング段階、および低品質データによって導入された品質バイアスを修正するための最終的な品質アライメント段階。
広範な実験は、提案されたDreamoが高品質のさまざまな画像カスタマイズタスクを効果的に実行し、さまざまな種類の制御条件を柔軟に統合できることを示しています。

要約(オリジナル)

Recently, extensive research on image customization (e.g., identity, subject, style, background, etc.) demonstrates strong customization capabilities in large-scale generative models. However, most approaches are designed for specific tasks, restricting their generalizability to combine different types of condition. Developing a unified framework for image customization remains an open challenge. In this paper, we present DreamO, an image customization framework designed to support a wide range of tasks while facilitating seamless integration of multiple conditions. Specifically, DreamO utilizes a diffusion transformer (DiT) framework to uniformly process input of different types. During training, we construct a large-scale training dataset that includes various customization tasks, and we introduce a feature routing constraint to facilitate the precise querying of relevant information from reference images. Additionally, we design a placeholder strategy that associates specific placeholders with conditions at particular positions, enabling control over the placement of conditions in the generated results. Moreover, we employ a progressive training strategy consisting of three stages: an initial stage focused on simple tasks with limited data to establish baseline consistency, a full-scale training stage to comprehensively enhance the customization capabilities, and a final quality alignment stage to correct quality biases introduced by low-quality data. Extensive experiments demonstrate that the proposed DreamO can effectively perform various image customization tasks with high quality and flexibly integrate different types of control conditions.

arxiv情報

著者 Chong Mou,Yanze Wu,Wenxu Wu,Zinan Guo,Pengze Zhang,Yufeng Cheng,Yiming Luo,Fei Ding,Shiwen Zhang,Xinghui Li,Mengtian Li,Songtao Zhao,Jian Zhang,Qian He,Xinglong Wu
発行日 2025-04-23 17:41:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DreamO: A Unified Framework for Image Customization はコメントを受け付けていません

DiffArtist: Towards Structure and Appearance Controllable Image Stylization

要約

芸術的なスタイルには、構造要素と外観の両方の要素が含まれます。
既存のニューラルスタイリゼーション技術は、主に色や質感などの外観の特徴の転送に焦点を当てており、しばしば構造スタイリゼーションの同様に重要な側面を無視します。
このホワイトペーパーでは、2D画像の構造と外観の同時スタイリゼーションに関する包括的な研究を紹介します。
具体的には、私たちの知る限り、構造と外観よりも二重制御性を可能にする最初のスタイリライゼーション方法であるDiffartistを紹介します。
私たちの重要な洞察は、構造と外観を別々の拡散プロセスとして表現して、トレーニングを必要とせずに完全な解体を達成し、それにより、両方のコンポーネントの前例のない制御性をユーザーに与えることです。
ただし、外観と構造の両方の様式化の評価は、セマンティックな理解を必要とするため、困難なままです。
この目的のために、マルチモーダルLLMベースのスタイル評価者をさらに提案します。これは、セマンティック理解がないメトリックよりも人間の好みとよりよく調整されます。
この強力な評価者を使用すると、広範な分析を実施し、Diffartistが優れたスタイルの忠実度、編集可能性、構造認識の解体を達成することを実証します。
これらのメリットは、Diffartistを創造的なアプリケーションにとって非常に用途の広いソリューションにします。
プロジェクトホームページ:https://github.com/songrise/artist。

要約(オリジナル)

Artistic style includes both structural and appearance elements. Existing neural stylization techniques primarily focus on transferring appearance features such as color and texture, often neglecting the equally crucial aspect of structural stylization. In this paper, we present a comprehensive study on the simultaneous stylization of structure and appearance of 2D images. Specifically, we introduce DiffArtist, which, to the best of our knowledge, is the first stylization method to allow for dual controllability over structure and appearance. Our key insight is to represent structure and appearance as separate diffusion processes to achieve complete disentanglement without requiring any training, thereby endowing users with unprecedented controllability for both components. The evaluation of stylization of both appearance and structure, however, remains challenging as it necessitates semantic understanding. To this end, we further propose a Multimodal LLM-based style evaluator, which better aligns with human preferences than metrics lacking semantic understanding. With this powerful evaluator, we conduct extensive analysis, demonstrating that DiffArtist achieves superior style fidelity, editability, and structure-appearance disentanglement. These merits make DiffArtist a highly versatile solution for creative applications. Project homepage: https://github.com/songrise/Artist.

arxiv情報

著者 Ruixiang Jiang,Changwen Chen
発行日 2025-04-23 17:46:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | DiffArtist: Towards Structure and Appearance Controllable Image Stylization はコメントを受け付けていません

Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning

要約

ビジョン言語モデル(VLM)は、マルチモーダル推論タスクの顕著な進歩を示しています。
しかし、彼らは幻想的なイメージの理解や不正確な推論パスなどの問題のために、依然として不正確または無関係な反応を生成することがよくあります。
これらの課題に対処するために、VLMSの推論能力を高めるために、俳優批判のパラダイムに触発された新しいフレームワークであるCritic-Vを紹介します。
このフレームワークは、2つの独立したコンポーネントを統合することにより、推論プロセスと批評家プロセスを切り離します。これは、視覚的およびテキスト入力に基づいて推論パスを生成し、これらのパスを洗練するための建設的な批評を提供する批評家です。
このアプローチでは、推論者はテキストプロンプトに従って推論応答を生成します。これは、批評家からのフィードバックに基づいたポリシーとして繰り返し進化する可能性があります。
この相互作用プロセスは、理論的には、批評家がスカラー報酬の代わりに自然言語批評を提供する強化学習フレームワークによって推進され、より微妙なフィードバックを可能にして、複雑な推論タスクに関する推論者の能力を高めます。
批評家モデルは、直接選好最適化(DPO)を使用してトレーニングされ、ルールベースの報酬〜(RBR)によってランク付けされた批評の優先データセットを活用して、批評家の能力を高めます。
評価の結果は、批評家-Vフレームワークが、特に推論の正確性と効率性に関して、8つのベンチマークのうち5つでGPT-4Vを含む既存の方法を大幅に上回ることを示しています。
推論者の動的なテキストベースのポリシーを組み合わせることで、優先順位が最適化された批評家からの建設的なフィードバックが可能になり、より信頼性が高くコンテキストに敏感なマルチモーダル推論プロセスが可能になります。
私たちのアプローチは、VLMSの信頼性を高めるための有望なソリューションを提供し、自律運転や具体化されたインテリジェンスなどの現実世界の推論が多いマルチモーダルアプリケーションでのパフォーマンスを向上させます。

要約(オリジナル)

Vision-language models (VLMs) have shown remarkable advancements in multimodal reasoning tasks. However, they still often generate inaccurate or irrelevant responses due to issues like hallucinated image understandings or unrefined reasoning paths. To address these challenges, we introduce Critic-V, a novel framework inspired by the Actor-Critic paradigm to boost the reasoning capability of VLMs. This framework decouples the reasoning process and critic process by integrating two independent components: the Reasoner, which generates reasoning paths based on visual and textual inputs, and the Critic, which provides constructive critique to refine these paths. In this approach, the Reasoner generates reasoning responses according to text prompts, which can evolve iteratively as a policy based on feedback from the Critic. This interaction process was theoretically driven by a reinforcement learning framework where the Critic offers natural language critiques instead of scalar rewards, enabling more nuanced feedback to boost the Reasoner’s capability on complex reasoning tasks. The Critic model is trained using Direct Preference Optimization (DPO), leveraging a preference dataset of critiques ranked by Rule-based Reward~(RBR) to enhance its critic capabilities. Evaluation results show that the Critic-V framework significantly outperforms existing methods, including GPT-4V, on 5 out of 8 benchmarks, especially regarding reasoning accuracy and efficiency. Combining a dynamic text-based policy for the Reasoner and constructive feedback from the preference-optimized Critic enables a more reliable and context-sensitive multimodal reasoning process. Our approach provides a promising solution to enhance the reliability of VLMs, improving their performance in real-world reasoning-heavy multimodal applications such as autonomous driving and embodied intelligence.

arxiv情報

著者 Di Zhang,Junxian Li,Jingdi Lei,Xunzhi Wang,Yujie Liu,Zonglin Yang,Jiatong Li,Weida Wang,Suorong Yang,Jianbo Wu,Peng Ye,Wanli Ouyang,Dongzhan Zhou
発行日 2025-04-23 17:46:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning はコメントを受け付けていません

A Survey on Mixup Augmentations and Beyond

要約

深いニューラルネットワークが過去10年間でスリリングなブレークスルーを達成したため、大規模なラベル付きデータが利用できない場合、データの増加は正規化技術として注目を集めています。
既存の増強の中で、選択されたサンプルを凸に組み合わせた混合および関連するデータミックスメソッドと、対応するラベルは、さまざまなドメインに簡単に移行しながらデータ依存性の仮想データを生成することで高いパフォーマンスを生成するため、広く採用されています。
この調査では、基礎的な混合方法とそのアプリケーションの包括的なレビューを提示します。
最初に、モジュールを含む統合フレームワークとして混合の増加を備えたトレーニングパイプラインについて詳しく説明します。
再定式化されたフレームワークには、さまざまな混合方法が含まれており、直感的な運用手順を提供できます。
次に、視力下流タスク、さまざまなデータモダリティ、および混合のいくつかの分析\&理論に関する混合の増強のアプリケーションを体系的に調査します。
一方、混合研究の現在の状況と制限を締結し、効果的かつ効率的な混合の増強のためのさらなる作業を指摘します。
この調査では、研究者にミックスアップ方法の現在の最新技術を提供し、ミックスアップアリーナでの洞察とガイダンスの役割を提供できます。
この調査のオンラインプロジェクトは、https://github.com/westlake-ai/awesome-mixupで入手できます。

要約(オリジナル)

As Deep Neural Networks have achieved thrilling breakthroughs in the past decade, data augmentations have garnered increasing attention as regularization techniques when massive labeled data are unavailable. Among existing augmentations, Mixup and relevant data-mixing methods that convexly combine selected samples and the corresponding labels are widely adopted because they yield high performances by generating data-dependent virtual data while easily migrating to various domains. This survey presents a comprehensive review of foundational mixup methods and their applications. We first elaborate on the training pipeline with mixup augmentations as a unified framework containing modules. A reformulated framework could contain various mixup methods and give intuitive operational procedures. Then, we systematically investigate the applications of mixup augmentations on vision downstream tasks, various data modalities, and some analysis \& theorems of mixup. Meanwhile, we conclude the current status and limitations of mixup research and point out further work for effective and efficient mixup augmentations. This survey can provide researchers with the current state of the art in mixup methods and provide some insights and guidance roles in the mixup arena. An online project with this survey is available at https://github.com/Westlake-AI/Awesome-Mixup.

arxiv情報

著者 Xin Jin,Hongyu Zhu,Siyuan Li,Zedong Wang,Zicheng Liu,Juanxi Tian,Chang Yu,Huafeng Qin,Stan Z. Li
発行日 2025-04-23 17:47:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | A Survey on Mixup Augmentations and Beyond はコメントを受け付けていません

Generalized Neighborhood Attention: Multi-dimensional Sparse Attention at the Speed of Light

要約

近隣の注意などの多くのまばらな注意メカニズムは、通常、自己注意ベースライン上で一貫してスピードアップを提供することができませんでした。
これは、主に注意インフラストラクチャの複雑さのレベルと、AIハードウェアアーキテクチャの急速な進化によるものです。
同時に、特にコンピュータービジョンにおける最先端の基礎モデルの多くは、注意に大きく縛られており、O(n^2)の複雑さを逃れるために信頼できるスパース性が必要です。
この論文では、地域に焦点を当てた有望なまばらな注意メカニズムのクラスを研究し、パフォーマンスの改善のより良い分析モデルを開発することを目指しています。
まず、一般化された近隣の注意(GNA)を紹介します。これは、スライドウィンドウを記述し、伸びたスライドウィンドウを記述し、注意をブロックすることができます。
次に、これらのアプローチを実装する際に可能な設計の選択を検討し、特定の設定ではるかにリアルなスピードアップ上限を提供できるシミュレーターを作成します。
最後に、CutlassのNvidia Blackwell Architecture向けに設計された最先端の融合マルチヘッド注意(FMHA)カーネルの上にGNAを実装します。
私たちの実装は、多くの完全にブロックスパルスのケースで理論的に可能な最大スピードアップを完全に実現し、FP16で1.3 PetaFlops/secondの効果的な利用を達成することができます。
さらに、さまざまなGNA構成をCosmos-7B、Hunyuanvideo、Fluxなどの既製の生成モデルに接続し、微調整なしでB200で28%〜46%のエンドツーエンドのスピードアップを提供できることを示しています。
Nattenプロジェクトを通じて、シミュレーターとブラックウェルカーネルを直接オープンします。

要約(オリジナル)

Many sparse attention mechanisms such as Neighborhood Attention have typically failed to consistently deliver speedup over the self attention baseline. This is largely due to the level of complexity in attention infrastructure, and the rapid evolution of AI hardware architecture. At the same time, many state-of-the-art foundational models, particularly in computer vision, are heavily bound by attention, and need reliable sparsity to escape the O(n^2) complexity. In this paper, we study a class of promising sparse attention mechanisms that focus on locality, and aim to develop a better analytical model of their performance improvements. We first introduce Generalized Neighborhood Attention (GNA), which can describe sliding window, strided sliding window, and blocked attention. We then consider possible design choices in implementing these approaches, and create a simulator that can provide much more realistic speedup upper bounds for any given setting. Finally, we implement GNA on top of a state-of-the-art fused multi-headed attention (FMHA) kernel designed for the NVIDIA Blackwell architecture in CUTLASS. Our implementation can fully realize the maximum speedup theoretically possible in many perfectly block-sparse cases, and achieves an effective utilization of 1.3 petaFLOPs/second in FP16. In addition, we plug various GNA configurations into off-the-shelf generative models, such as Cosmos-7B, HunyuanVideo, and FLUX, and show that it can deliver 28% to 46% end-to-end speedup on B200 without any fine-tuning. We will open source our simulator and Blackwell kernels directly through the NATTEN project.

arxiv情報

著者 Ali Hassani,Fengzhe Zhou,Aditya Kane,Jiannan Huang,Chieh-Yun Chen,Min Shi,Steven Walton,Markus Hoehnerbach,Vijay Thakkar,Michael Isaev,Qinsheng Zhang,Bing Xu,Haicheng Wu,Wen-mei Hwu,Ming-Yu Liu,Humphrey Shi
発行日 2025-04-23 17:49:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Generalized Neighborhood Attention: Multi-dimensional Sparse Attention at the Speed of Light はコメントを受け付けていません

I-Con: A Unifying Framework for Representation Learning

要約

表現学習の分野が成長するにつれて、さまざまなクラスの問題を解決するために、異なる損失関数が急増しています。
機械学習における最新の損失関数の大規模なコレクションを一般化する単一の情報理論方程式を紹介します。
特に、いくつかの幅広いクラスの機械学習方法が、監督と学習の表現という2つの条件分布間の統合されたKLの発散を正確に最小化していることを示すフレームワークを紹介します。
この視点は、クラスタリング、スペクトルメソッド、次元低下、対照学習、および監視された学習の根底にある隠された情報ジオメトリを公開します。
このフレームワークにより、文献全体から成功した手法を組み合わせることにより、新しい損失関数の開発が可能になります。
23を超えるアプローチを接続する幅広い証明を提示するだけでなく、これらの理論的結果を活用して、Imagenet-1Kの監視されていない分類に関する以前の最新の分類よりも +8%の改善を達成する最先端の非監視されていない画像分類子を作成します。
また、I-conを使用して、対照的な表現学習者を改善する原則的な紛争方法を導き出すことができることを実証します。

要約(オリジナル)

As the field of representation learning grows, there has been a proliferation of different loss functions to solve different classes of problems. We introduce a single information-theoretic equation that generalizes a large collection of modern loss functions in machine learning. In particular, we introduce a framework that shows that several broad classes of machine learning methods are precisely minimizing an integrated KL divergence between two conditional distributions: the supervisory and learned representations. This viewpoint exposes a hidden information geometry underlying clustering, spectral methods, dimensionality reduction, contrastive learning, and supervised learning. This framework enables the development of new loss functions by combining successful techniques from across the literature. We not only present a wide array of proofs, connecting over 23 different approaches, but we also leverage these theoretical results to create state-of-the-art unsupervised image classifiers that achieve a +8% improvement over the prior state-of-the-art on unsupervised classification on ImageNet-1K. We also demonstrate that I-Con can be used to derive principled debiasing methods which improve contrastive representation learners.

arxiv情報

著者 Shaden Alshammari,John Hershey,Axel Feldmann,William T. Freeman,Mark Hamilton
発行日 2025-04-23 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.IT, cs.LG, math.IT | I-Con: A Unifying Framework for Representation Learning はコメントを受け付けていません