Transformers Learn Low Sensitivity Functions: Investigations and Implications

要約

トランスは、多くのタスクにわたって最先端の精度と堅牢性を実現しますが、それらの誘導バイアスと他のニューラルネットワークアーキテクチャとどのように異なるかを理解することはとらえどころのないままです。
この作業では、さまざまなデータモダリティ全体の変圧器の誘導バイアスを説明し、他のアーキテクチャと区別する統一されたメトリックとして、入力内のトークンごとのランダムな摂動に対するモデルの感度を統合します。
変圧器は、ビジョンタスクと言語タスクの両方で、MLP、CNNS、コンビクシー、LSTMよりも感度が低いことを示しています。
また、この低感度バイアスには重要な意味があることも示します。i)低感度は、堅牢性の向上と相関しています。
また、変圧器の堅牢性をさらに改善するための効率的な介入として使用することもできます。
ii)損失状況のより平坦な最小値に対応します。
iii)それは、グローキングの進捗尺度として機能することができます。
これらの発見は、NTK体制における変圧器の(弱い)スペクトルバイアスを示し、感度が低いために堅牢性を改善する理論的結果でサポートしています。
このコードは、https://github.com/estija/sensitivityで入手できます。

要約(オリジナル)

Transformers achieve state-of-the-art accuracy and robustness across many tasks, but an understanding of their inductive biases and how those biases differ from other neural network architectures remains elusive. In this work, we identify the sensitivity of the model to token-wise random perturbations in the input as a unified metric which explains the inductive bias of transformers across different data modalities and distinguishes them from other architectures. We show that transformers have lower sensitivity than MLPs, CNNs, ConvMixers and LSTMs, across both vision and language tasks. We also show that this low-sensitivity bias has important implications: i) lower sensitivity correlates with improved robustness; it can also be used as an efficient intervention to further improve the robustness of transformers; ii) it corresponds to flatter minima in the loss landscape; and iii) it can serve as a progress measure for grokking. We support these findings with theoretical results showing (weak) spectral bias of transformers in the NTK regime, and improved robustness due to the lower sensitivity. The code is available at https://github.com/estija/sensitivity.

arxiv情報

著者 Bhavya Vasudeva,Deqing Fu,Tianyi Zhou,Elliott Kau,Youqi Huang,Vatsal Sharan
発行日 2025-02-13 18:58:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML | Transformers Learn Low Sensitivity Functions: Investigations and Implications はコメントを受け付けていません

Theoretical Benefit and Limitation of Diffusion Language Model

要約

拡散言語モデルは、テキスト生成の有望なアプローチとして浮上しています。
複数のトークンを各拡散ステップ中に並行してサンプリングできるため、この方法は自己回帰モデルの効率的な代替品になることを当然予想します。
ただし、その効率性の高いトレードオフはまだよく理解されていません。
この論文では、広く使用されているタイプの拡散言語モデルであるマスクされた拡散モデル(MDM)の厳密な理論分析を提示し、その有効性がターゲット評価メトリックに大きく依存することがわかります。
穏やかな条件下では、メトリックとして困惑を使用すると、MDMSがシーケンスの長さに関係なくサンプリングステップでほぼ最適な困惑を達成できることを証明し、パフォーマンスを犠牲にすることなく効率を達成できることを実証します。
ただし、シーケンスエラー率を使用する場合、これは推論チェーンなどのシーケンスの「正しさ」を理解するために重要です – 必要なサンプリングステップが、「正しい」シーケンスを取得するためにシーケンスの長さで直線的にスケーリングする必要があることを示します。
これにより、自己回帰モデルよりもMDMの効率的優位性が排除されます。
分析は、MDMの利点と制限を理解するための最初の理論的基盤を確立します。
すべての理論的発見は、実証研究によって裏付けられています。

要約(オリジナル)

Diffusion language models have emerged as a promising approach for text generation. One would naturally expect this method to be an efficient replacement for autoregressive models since multiple tokens can be sampled in parallel during each diffusion step. However, its efficiency-accuracy trade-off is not yet well understood. In this paper, we present a rigorous theoretical analysis of a widely used type of diffusion language model, the Masked Diffusion Model (MDM), and find that its effectiveness heavily depends on the target evaluation metric. Under mild conditions, we prove that when using perplexity as the metric, MDMs can achieve near-optimal perplexity in sampling steps regardless of sequence length, demonstrating that efficiency can be achieved without sacrificing performance. However, when using the sequence error rate–which is important for understanding the ‘correctness’ of a sequence, such as a reasoning chain–we show that the required sampling steps must scale linearly with sequence length to obtain ‘correct’ sequences, thereby eliminating MDM’s efficiency advantage over autoregressive models. Our analysis establishes the first theoretical foundation for understanding the benefits and limitations of MDMs. All theoretical findings are supported by empirical studies.

arxiv情報

著者 Guhao Feng,Yihan Geng,Jian Guan,Wei Wu,Liwei Wang,Di He
発行日 2025-02-13 18:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML | Theoretical Benefit and Limitation of Diffusion Language Model はコメントを受け付けていません

Mitigating the Impact of Prominent Position Shift in Drone-based RGBT Object Detection

要約

ドローンベースのRGBTオブジェクト検出は、多くの24時間アプリケーションで重要な役割を果たします。
ただし、現実世界のドローンで視聴されたRGBTデータは、顕著な位置シフトの問題に苦しんでいます。つまり、小さなオブジェクトの位置は、異なるモダリティで大きく異なります。
たとえば、熱モダリティにおける小さなオブジェクトのわずかな偏差は、RGBモダリティで本体からドリフトするようになります。
通常、RGBTデータは1つのモダリティ(参照)にラベル付けされていることを考慮して、これにより、ラベルのないモダリティ(SENSED)が正確な監督シグナルを欠いており、検出器が適切な表現を学習できないようにします。
さらに、モダリティ間の対応する特徴点の不一致により、融合した特徴が検出ヘッドを混乱させます。
このホワイトペーパーでは、クロスモダリティボックスシフトの問題をラベルノイズの問題としてキャストし、新しい平均的な教師ベースのクロスモダリティボックス補正ヘッドアンサンブル(CBC)を介してその場でそれを扱うことを提案します。
このようにして、ネットワークは両方のモダリティのより多くの有益な表現を学ぶことができます。
さらに、RGBT Fusionの特徴マップの不一致の問題を軽減するために、シフトされたウィンドウベースのカスケードアライメント(SWCA)モジュールを考案します。
SWCA鉱山は、シフトされたウィンドウとカスケード内の空間的に整列されていない機能の間の長距離依存関係に、感知された機能を参照機能に合わせます。
2つのドローンベースのRGBTオブジェクト検出データセットでの広範な実験は、補正結果が視覚的および定量的に好ましいことを示しており、それにより検出性能が向上することを示しています。
特に、CBCモジュールは、感知されたモダリティグラウンドトゥルースの精度を25.52 ASIMポイント増加させます。
全体として、提案された検出器は、RGBTDRONEPERSONで43.55ポイントのMAP_50を達成し、DroneVehicleデータセットのシフトサブセットで8.6 MAP50によって最先端の方法を上回ります。
コードとデータは公開されます。

要約(オリジナル)

Drone-based RGBT object detection plays a crucial role in many around-the-clock applications. However, real-world drone-viewed RGBT data suffers from the prominent position shift problem, i.e., the position of a tiny object differs greatly in different modalities. For instance, a slight deviation of a tiny object in the thermal modality will induce it to drift from the main body of itself in the RGB modality. Considering RGBT data are usually labeled on one modality (reference), this will cause the unlabeled modality (sensed) to lack accurate supervision signals and prevent the detector from learning a good representation. Moreover, the mismatch of the corresponding feature point between the modalities will make the fused features confusing for the detection head. In this paper, we propose to cast the cross-modality box shift issue as the label noise problem and address it on the fly via a novel Mean Teacher-based Cross-modality Box Correction head ensemble (CBC). In this way, the network can learn more informative representations for both modalities. Furthermore, to alleviate the feature map mismatch problem in RGBT fusion, we devise a Shifted Window-Based Cascaded Alignment (SWCA) module. SWCA mines long-range dependencies between the spatially unaligned features inside shifted windows and cascaded aligns the sensed features with the reference ones. Extensive experiments on two drone-based RGBT object detection datasets demonstrate that the correction results are both visually and quantitatively favorable, thereby improving the detection performance. In particular, our CBC module boosts the precision of the sensed modality ground truth by 25.52 aSim points. Overall, the proposed detector achieves an mAP_50 of 43.55 points on RGBTDronePerson and surpasses a state-of-the-art method by 8.6 mAP50 on a shift subset of DroneVehicle dataset. The code and data will be made publicly available.

arxiv情報

著者 Yan Zhang,Wen Yang,Chang Xu,Qian Hu,Fang Xu,Gui-Song Xia
発行日 2025-02-13 13:25:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mitigating the Impact of Prominent Position Shift in Drone-based RGBT Object Detection はコメントを受け付けていません

A Benchmark for Crime Surveillance Video Analysis with Large Models

要約

監視ビデオの異常分析は、コンピュータービジョンにおける重要なトピックです。
近年、マルチモーダル大手言語モデル(MLLM)は、さまざまなドメインでタスク固有のモデルよりも優れています。
MLLMは特に用途が広いものの、MLLMスタイルのQASとモデルのオープンエンドテキスト応答を評価するための効率的なアルゴリズムを提供していないこのフィールドの時代遅れのベンチマークのために、異常な概念と詳細を理解する能力が十分に研究されていません。
このギャップを埋めるために、UCVLとして示された大規模なモデルを使用して、1,829個のビデオとUCF犯罪およびUCF犯罪注釈データセットからの再編成注釈を含む、犯罪監視ビデオ分析のベンチマークを提案します。
6種類の質問を設計し、多様なQAペアを生成します。
次に、詳細な指示を作成し、正確な評価のためにOpenAIのGPT-4Oを使用します。
0.5Bから40Bのパラメーターの範囲の8つの一般的なMLLMをベンチマークし、結果がこのベンチの信頼性を示しています。
さらに、UCVLのトレーニングセットでllava-nevisionをFintuneします。
この改善は、ビデオの異常分析のためにデータの高品質を検証します。

要約(オリジナル)

Anomaly analysis in surveillance videos is a crucial topic in computer vision. In recent years, multimodal large language models (MLLMs) have outperformed task-specific models in various domains. Although MLLMs are particularly versatile, their abilities to understand anomalous concepts and details are insufficiently studied because of the outdated benchmarks of this field not providing MLLM-style QAs and efficient algorithms to assess the model’s open-ended text responses. To fill this gap, we propose a benchmark for crime surveillance video analysis with large models denoted as UCVL, including 1,829 videos and reorganized annotations from the UCF-Crime and UCF-Crime Annotation datasets. We design six types of questions and generate diverse QA pairs. Then we develop detailed instructions and use OpenAI’s GPT-4o for accurate assessment. We benchmark eight prevailing MLLMs ranging from 0.5B to 40B parameters, and the results demonstrate the reliability of this bench. Moreover, we finetune LLaVA-OneVision on UCVL’s training set. The improvement validates our data’s high quality for video anomaly analysis.

arxiv情報

著者 Haoran Chen,Dong Yi,Moyan Cao,Chensen Huang,Guibo Zhu,Jinqiao Wang
発行日 2025-02-13 13:38:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Benchmark for Crime Surveillance Video Analysis with Large Models はコメントを受け付けていません

Image and Point-cloud Classification for Jet Analysis in High-Energy Physics: A survey

要約

現在、機械学習(ML)と専門分野であるディープラーニング(DL)を組み込むために、高エネルギー物理学(HEP)の分野(HEP)の分野で成長する傾向がありました。
このレビューペーパーでは、さまざまなMLおよびDLアプローチを使用したこれらのアプリケーションの徹底的な図を提供します。
論文の最初の部分では、さまざまな粒子物理学タイプの基本を調べ、利用可能な学習モデルとともに粒子物理学を評価するためのガイドラインを確立します。
次に、主に明確に定義されたビームエネルギーでのプロトンプロトン衝突で、高エネルギーの衝突で再構築されるジェットを表すための詳細な分類が提供されます。
このセクションでは、さまざまなデータセット、前処理技術、機能抽出および選択方法について説明します。
提示された手法は、高光度LHC(HL-LHC)や将来の円形コリダー-Hadron-Hadron(FCCHH)など、将来のHadron-Hadron Colliders(HHC)に適用できます。
次に、著者は、HEPの画像とPoint-Cloud(PC)データの両方に特化したいくつかのAI技術分析を探索します。
さらに、ハドロンの衝突におけるジェットタグ付けに関連する分類をよく見ることができます。
このレビューでは、MLおよびDLのさまざまな最先端(SOTA)技術を調べ、HEP需要への影響に焦点を当てています。
より正確には、このディスカッションでは、ジェットタグ付け、ジェットトラッキング、粒子分類など、さまざまなアプリケーションに幅広い詳細を扱っています。
レビューは、DL方法論を使用したHEPの現在の状態の分析とともに終了します。
それは、各アプリケーションに示されている将来の研究の課題と潜在的な分野を強調しています。

要約(オリジナル)

Nowadays, there has been a growing trend in the field of high-energy physics (HEP), in both its experimental and phenomenological studies, to incorporate machine learning (ML) and its specialized branch, deep learning (DL). This review paper provides a thorough illustration of these applications using different ML and DL approaches. The first part of the paper examines the basics of various particle physics types and establishes guidelines for assessing particle physics alongside the available learning models. Next, a detailed classification is provided for representing Jets that are reconstructed in high-energy collisions, mainly in proton-proton collisions at well-defined beam energies. This section covers various datasets, preprocessing techniques, and feature extraction and selection methods. The presented techniques can be applied to future hadron-hadron colliders (HHC), such as the high-luminosity LHC (HL-LHC) and the future circular collider – hadron-hadron (FCChh). The authors then explore several AI techniques analyses designed specifically for both image and point-cloud (PC) data in HEP. Additionally, a closer look is taken at the classification associated with Jet tagging in hadron collisions. In this review, various state-of-the-art (SOTA) techniques in ML and DL are examined, with a focus on their implications for HEP demands. More precisely, this discussion addresses various applications in extensive detail, such as Jet tagging, Jet tracking, particle classification, and more. The review concludes with an analysis of the current state of HEP using DL methodologies. It highlights the challenges and potential areas for future research, which are illustrated for each application.

arxiv情報

著者 Hamza Kheddar,Yassine Himeur,Abbes Amira,Rachik Soualah
発行日 2025-02-13 14:16:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, hep-ex, hep-ph | Image and Point-cloud Classification for Jet Analysis in High-Energy Physics: A survey はコメントを受け付けていません

Wasserstein distributional adversarial training for deep neural networks

要約

深いニューラルネットワークに対する敵対的な攻撃の設計、およびそれらに対する敵対的な訓練の方法は、激しい研究の対象です。
この論文では、流通攻撃の脅威に反して訓練する方法を提案し、ポイントワイズ攻撃に使用される取引方法を延長します。
私たちのアプローチは、最近の貢献を活用しており、ワッサースタインの分布的に堅牢な最適化の問題の感度分析に依存しています。
以前に訓練されたモデルに展開できる効率的な微調整方法を紹介します。
RobustBenchで、さまざまな訓練を受けたモデルの範囲でメソッドをテストします。
これらの実験結果は、すでに非常に成功しているネットワークであっても、ポイントワイズの堅牢性の元のレベルを維持しながら、追加のトレーニングがワッサースタイン分布の堅牢性を高めることを示しています。
20〜100mの画像の巨大な合成データセットを使用して、事前に訓練されたモデルでは、改善はあまりマークされていません。
ただし、驚くべきことに、元のトレーニングデータセット(50K画像)のみを使用してトレーニングを受けた場合でも、方法がパフォーマンスを改善できる場合があります。

要約(オリジナル)

Design of adversarial attacks for deep neural networks, as well as methods of adversarial training against them, are subject of intense research. In this paper, we propose methods to train against distributional attack threats, extending the TRADES method used for pointwise attacks. Our approach leverages recent contributions and relies on sensitivity analysis for Wasserstein distributionally robust optimization problems. We introduce an efficient fine-tuning method which can be deployed on a previously trained model. We test our methods on a range of pre-trained models on RobustBench. These experimental results demonstrate the additional training enhances Wasserstein distributional robustness, while maintaining original levels of pointwise robustness, even for already very successful networks. The improvements are less marked for models pre-trained using huge synthetic datasets of 20-100M images. However, remarkably, sometimes our methods are still able to improve their performance even when trained using only the original training dataset (50k images).

arxiv情報

著者 Xingjian Bai,Guangyi He,Yifan Jiang,Jan Obloj
発行日 2025-02-13 14:18:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, math.OC | Wasserstein distributional adversarial training for deep neural networks はコメントを受け付けていません

CANeRV: Content Adaptive Neural Representation for Video Compression

要約

ビデオ圧縮の最近の進歩は、ビデオシーケンス全体のグローバルな依存関係と特性を効果的にキャプチャする暗黙の神経表現(INR)ベースの方法を導入します。
従来の学習ベースのアプローチとは異なり、INRベースの方法は、グローバルな観点からネットワークパラメーターを最適化するため、優れた圧縮の可能性をもたらします。
ただし、現在のINRメソッドのほとんどは、すべてのフレームにわたって固定された均一なネットワークアーキテクチャを利用しており、ビデオシーケンス内およびビデオシーケンス間の動的バリエーションへの適応性を制限しています。
これらの方法は、ビデオコンテンツの明確なニュアンスと遷移をキャプチャするのに苦労するため、これはしばしば最適ではない圧縮結果につながります。
これらの課題を克服するために、各ビデオシーケンスの特定のコンテンツに基づいて構造最適化を適応的に実施する革新的なINRベースのビデオ圧縮ネットワークであるビデオ圧縮(CANERV)のコンテンツ適応ニューラル表現を提案します。
ビデオシーケンス全体で動的情報をより適切にキャプチャするために、動的シーケンスレベルの調整(DSA)を提案します。
さらに、シーケンス内のフレーム間のダイナミクスのキャプチャを強化するために、動的フレームレベルの調整(DFA)を実装します。
{最後に、ビデオフレーム内の空間構造情報を効果的にキャプチャし、それによりCanervの詳細回復機能を強化するために、構造レベルの階層構造適応(HSA)を考案します。}実験結果は、CanervがH.266/VVCと状態の両方を上回ることができることを示しています
– 多様なビデオデータセット全体の最大のINRベースのビデオ圧縮技術。

要約(オリジナル)

Recent advances in video compression introduce implicit neural representation (INR) based methods, which effectively capture global dependencies and characteristics of entire video sequences. Unlike traditional and deep learning based approaches, INR-based methods optimize network parameters from a global perspective, resulting in superior compression potential. However, most current INR methods utilize a fixed and uniform network architecture across all frames, limiting their adaptability to dynamic variations within and between video sequences. This often leads to suboptimal compression outcomes as these methods struggle to capture the distinct nuances and transitions in video content. To overcome these challenges, we propose Content Adaptive Neural Representation for Video Compression (CANeRV), an innovative INR-based video compression network that adaptively conducts structure optimisation based on the specific content of each video sequence. To better capture dynamic information across video sequences, we propose a dynamic sequence-level adjustment (DSA). Furthermore, to enhance the capture of dynamics between frames within a sequence, we implement a dynamic frame-level adjustment (DFA). {Finally, to effectively capture spatial structural information within video frames, thereby enhancing the detail restoration capabilities of CANeRV, we devise a structure level hierarchical structural adaptation (HSA).} Experimental results demonstrate that CANeRV can outperform both H.266/VVC and state-of-the-art INR-based video compression techniques across diverse video datasets.

arxiv情報

著者 Lv Tang,Jun Zhu,Xinfeng Zhang,Li Zhang,Siwei Ma,Qingming Huang
発行日 2025-02-13 14:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CANeRV: Content Adaptive Neural Representation for Video Compression はコメントを受け付けていません

Galileo: Learning Global and Local Features in Pretrained Remote Sensing Models

要約

作物のマッピングから洪水の検出まで、リモートセンシングの機械学習には、社会的に有益なアプリケーションの幅広いアプリケーションがあります。
これらのアプリケーションでのリモートセンシングデータ間の共通性は、リモートセンシングに合わせて調整された前提条件の機械学習モデルの機会を提供し、個々のタスクを解決するために必要なラベル付きデータと努力を削減します。
ただし、そのようなモデルは次のものでなければなりません。(i)さまざまなセンサーのモダリティと形状(つまり、さまざまな空間的および時間的寸法の)の入力データを摂取するのに十分な柔軟性、および(ii)さまざまなスケールとタイプの地球表面現象をモデル化できる。
このギャップを解決するために、マルチモーダルのリモートセンシングデータを柔軟に処理するように設計された、前処理されたリモートセンシングモデルのファミリーであるGalileoを紹介します。
また、以前のモデルでは対処されていない課題である、大規模および小規模な機能の両方を学ぶために、斬新で非常に効果的な自己監視学習アプローチを紹介します。
ガリレオモデルは、多様なリモートセンシングタスク全体で最先端の結果を得ています。

要約(オリジナル)

From crop mapping to flood detection, machine learning in remote sensing has a wide range of societally beneficial applications. The commonalities between remote sensing data in these applications present an opportunity for pretrained machine learning models tailored to remote sensing to reduce the labeled data and effort required to solve individual tasks. However, such models must be: (i) flexible enough to ingest input data of varying sensor modalities and shapes (i.e., of varying spatial and temporal dimensions), and (ii) able to model Earth surface phenomena of varying scales and types. To solve this gap, we present Galileo, a family of pretrained remote sensing models designed to flexibly process multimodal remote sensing data. We also introduce a novel and highly effective self-supervised learning approach to learn both large- and small-scale features, a challenge not addressed by previous models. Our Galileo models obtain state-of-the-art results across diverse remote sensing tasks.

arxiv情報

著者 Gabriel Tseng,Anthony Fuller,Marlena Reil,Henry Herzog,Patrick Beukema,Favyen Bastani,James R. Green,Evan Shelhamer,Hannah Kerner,David Rolnick
発行日 2025-02-13 14:21:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Galileo: Learning Global and Local Features in Pretrained Remote Sensing Models はコメントを受け付けていません

Illegal Waste Detection in Remote Sensing Images: A Case Study

要約

環境犯罪は現在、世界で3番目に大きい犯罪行為を表し、生態系と人間の健康を脅かしています。
この活動に関連する犯罪の中で、不適切な廃棄物管理は、違法な埋め立て地を求めて半自動領土スキャンを可能にする非常に高解像度のリモートセンシング画像の利用可能性とコストの削減により、現在、より簡単に対抗することができます。
このペーパーでは、地元の環境機関の専門家と協力して開発されたパイプラインを提案し、候補者がリモートセンシング画像の分類子を活用する違法な投棄サイトを検出しました。
このような分類器に最適な構成を識別するために、広範な一連の実験が実施され、多様な画像特性とトレーニング設定の影響が徹底的に分析されました。
その後、地元の環境機関は、開発された分類器からの出力が専門家の日常業務に統合された実験演習に関与し、手動の写真解釈に関して時間の節約をもたらしました。
最終的に分類器は、トレーニングエリアの外側の場所で貴重な結果で実行され、提案されたパイプラインの国境を越えた適用可能性の可能性を強調しました。

要約(オリジナル)

Environmental crime currently represents the third largest criminal activity worldwide while threatening ecosystems as well as human health. Among the crimes related to this activity, improper waste management can nowadays be countered more easily thanks to the increasing availability and decreasing cost of Very-High-Resolution Remote Sensing images, which enable semi-automatic territory scanning in search of illegal landfills. This paper proposes a pipeline, developed in collaboration with professionals from a local environmental agency, for detecting candidate illegal dumping sites leveraging a classifier of Remote Sensing images. To identify the best configuration for such classifier, an extensive set of experiments was conducted and the impact of diverse image characteristics and training settings was thoroughly analyzed. The local environmental agency was then involved in an experimental exercise where outputs from the developed classifier were integrated in the experts’ everyday work, resulting in time savings with respect to manual photo-interpretation. The classifier was eventually run with valuable results on a location outside of the training area, highlighting potential for cross-border applicability of the proposed pipeline.

arxiv情報

著者 Federico Gibellini,Piero Fraternali,Giacomo Boracchi,Luca Morandini,Andrea Diecidue,Simona Malegori
発行日 2025-02-13 14:57:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Illegal Waste Detection in Remote Sensing Images: A Case Study はコメントを受け付けていません

Enhance-A-Video: Better Generated Video for Free

要約

DITベースのビデオ生成は顕著な結果を達成しましたが、既存のモデルの強化に関する研究は比較的未開拓のままです。
この作業では、DITベースの生成されたビデオのコヒーレンスと品質を強化するためのトレーニングなしのアプローチを紹介します。
核となるアイデアは、非対角の時間的注意分布に基づいて、クロスフレーム相関を強化することです。
そのシンプルなデザインのおかげで、私たちのアプローチは、再訓練や微調整なしで、ほとんどのDITベースのビデオ生成フレームワークに簡単に適用できます。
さまざまなDITベースのビデオ生成モデルで、私たちのアプローチは、時間的一貫性と視覚品質の両方の有望な改善を示しています。
この研究が、ビデオ生成の強化における将来の探求を刺激することを願っています。

要約(オリジナル)

DiT-based video generation has achieved remarkable results, but research into enhancing existing models remains relatively unexplored. In this work, we introduce a training-free approach to enhance the coherence and quality of DiT-based generated videos, named Enhance-A-Video. The core idea is enhancing the cross-frame correlations based on non-diagonal temporal attention distributions. Thanks to its simple design, our approach can be easily applied to most DiT-based video generation frameworks without any retraining or fine-tuning. Across various DiT-based video generation models, our approach demonstrates promising improvements in both temporal consistency and visual quality. We hope this research can inspire future explorations in video generation enhancement.

arxiv情報

著者 Yang Luo,Xuanlei Zhao,Mengzhao Chen,Kaipeng Zhang,Wenqi Shao,Kai Wang,Zhangyang Wang,Yang You
発行日 2025-02-13 15:28:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Enhance-A-Video: Better Generated Video for Free はコメントを受け付けていません