DiffMOD: Progressive Diffusion Point Denoising for Moving Object Detection in Remote Sensing

要約

リモートセンシングの移動オブジェクト検出(MOD)は、低解像度、非常に小さなオブジェクトサイズ、および複雑なノイズ干渉によって大幅に課せられます。
現在のディープラーニングベースのMODメソッドは、オブジェクト間および時間的フレーム間の柔軟な情報相互作用を制限する確率密度推定に依存しています。
高次のオブジェクト間および時間的関係を柔軟にキャプチャするために、リモートセンシングでポイントベースのMODを提案します。
拡散モデルに触発されたネットワーク最適化は、移動するオブジェクトセンターをまばらなノイズの多いポイントから繰り返し回復するプログレッシブ除去プロセスとして定式化されています。
具体的には、バックボーン出力からの散乱特徴を後続の処理のための原子単位としてサンプリングしますが、グローバルな特徴埋め込みは、スパースポイント機能の限られたカバレッジを補正するために集計されています。
空間的相対位置とセマンティックアフィニティをモデル化することにより、空間的関係集約の注意は、オブジェクト表現を強化するためにポイントレベルの特徴間の高次相互作用を可能にするように設計されています。
時間的一貫性を高めるために、一時的な伝播とグローバル融合モジュールが設計されており、これにより、堅牢なクロスフレーム特徴統合のための暗黙のメモリ推論メカニズムを活用します。
プログレッシブ除去プロセスに合わせて、各除去レベルで専門学習目標を確立するプログレッシブミンク最適輸送割り当て戦略を提案します。
さらに、不足している損失関数を導入して、顕著なオブジェクトの周りの除去されたポイントのクラスタリング傾向に対抗します。
RSDATAリモートセンシングMODデータセットでの実験は、散乱ポイント除去に基づくMODメソッドが、スパース移動オブジェクト間の潜在的な関係をより効果的に調査し、検出能力と時間的一貫性を改善できることを示しています。

要約(オリジナル)

Moving object detection (MOD) in remote sensing is significantly challenged by low resolution, extremely small object sizes, and complex noise interference. Current deep learning-based MOD methods rely on probability density estimation, which restricts flexible information interaction between objects and across temporal frames. To flexibly capture high-order inter-object and temporal relationships, we propose a point-based MOD in remote sensing. Inspired by diffusion models, the network optimization is formulated as a progressive denoising process that iteratively recovers moving object centers from sparse noisy points. Specifically, we sample scattered features from the backbone outputs as atomic units for subsequent processing, while global feature embeddings are aggregated to compensate for the limited coverage of sparse point features. By modeling spatial relative positions and semantic affinities, Spatial Relation Aggregation Attention is designed to enable high-order interactions among point-level features for enhanced object representation. To enhance temporal consistency, the Temporal Propagation and Global Fusion module is designed, which leverages an implicit memory reasoning mechanism for robust cross-frame feature integration. To align with the progressive denoising process, we propose a progressive MinK optimal transport assignment strategy that establishes specialized learning objectives at each denoising level. Additionally, we introduce a missing loss function to counteract the clustering tendency of denoised points around salient objects. Experiments on the RsData remote sensing MOD dataset show that our MOD method based on scattered point denoising can more effectively explore potential relationships between sparse moving objects and improve the detection capability and temporal consistency.

arxiv情報

著者 Jinyue Zhang,Xiangrong Zhang,Zhongjian Huang,Tianyang Zhang,Yifei Jiang,Licheng Jiao
発行日 2025-04-14 14:44:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T10, cs.CV, I.4.8 | DiffMOD: Progressive Diffusion Point Denoising for Moving Object Detection in Remote Sensing はコメントを受け付けていません

Distilling Textual Priors from LLM to Efficient Image Fusion

要約

マルチモダリティ画像Fusionは、複数のソース入力からの単一の包括的な画像を合成することを目的としています。
CNNやGANなどの従来のアプローチは、効率を提供しますが、低品質または複雑な入力を処理するのに苦労しています。
テキスト誘導方法の最近の進歩は、これらの制限を克服するために大規模なモデルのプライアーを活用していますが、メモリと推論時間の両方で重要な計算オーバーヘッドを犠牲にしています。
この課題に対処するために、大規模なモデルの事前に蒸留するための新しいフレームワークを提案し、モデルサイズを劇的に削減しながら、推論中のテキストガイダンスの必要性を排除します。
当社のフレームワークは、教師の学生アーキテクチャを利用しています。教師ネットワークには、大規模なモデルが組み込まれ、この知識を調整された蒸留プロセスを介して小規模な学生ネットワークに転送します。
さらに、空間チャネルの交差融合モジュールを導入して、空間的ディメンションとチャネル次元の両方でテキストプライアーを活用するモデルの能力を高めます。
私たちの方法は、計算効率と融合品質の間の好ましいトレードオフを達成します。
教師ネットワークのパラメーターと推論時間の10%のみを必要とする蒸留ネットワークは、そのパフォーマンスの90%を保持し、既存のSOTAメソッドを上回ります。
広範な実験は、私たちのアプローチの有効性を示しています。
実装は、オープンソースリソースとして公開されます。

要約(オリジナル)

Multi-modality image fusion aims to synthesize a single, comprehensive image from multiple source inputs. Traditional approaches, such as CNNs and GANs, offer efficiency but struggle to handle low-quality or complex inputs. Recent advances in text-guided methods leverage large model priors to overcome these limitations, but at the cost of significant computational overhead, both in memory and inference time. To address this challenge, we propose a novel framework for distilling large model priors, eliminating the need for text guidance during inference while dramatically reducing model size. Our framework utilizes a teacher-student architecture, where the teacher network incorporates large model priors and transfers this knowledge to a smaller student network via a tailored distillation process. Additionally, we introduce spatial-channel cross-fusion module to enhance the model’s ability to leverage textual priors across both spatial and channel dimensions. Our method achieves a favorable trade-off between computational efficiency and fusion quality. The distilled network, requiring only 10% of the parameters and inference time of the teacher network, retains 90% of its performance and outperforms existing SOTA methods. Extensive experiments demonstrate the effectiveness of our approach. The implementation will be made publicly available as an open-source resource.

arxiv情報

著者 Ran Zhang,Xuanhua He,Ke Cao,Liu Liu,Li Zhang,Man Zhou,Jie Zhang
発行日 2025-04-14 14:47:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Distilling Textual Priors from LLM to Efficient Image Fusion はコメントを受け付けていません

Zero-shot Autonomous Microscopy for Scalable and Intelligent Characterization of 2D Materials

要約

原子スケール材料の特性評価では、伝統的に、数ヶ月から長年の専門的なトレーニングを行う人間の専門家が必要です。
訓練された人間のオペレーターであっても、2次元(2D)構造などの新たに発見された材料を調べる場合、正確で信頼できる特性評価は依然として困難です。
このボトルネックは、大規模なトレーニングデータセットを必要とせずに研究目標を理解できる完全に自律的な実験システムの需要を促進します。
この作業では、2D材料の完全に自律的でゼロショットの特性評価を可能にする基礎モデルを統合するエンドツーエンドのフレームワークである、アトミック(光学顕微鏡とインテリジェントな特性評価の自律技術)を提示します。
当社のシステムは、Vision Foundationモデル(つまり、すべてのモデル)、大規模な言語モデル(つまり、CHATGPT)、監視なしクラスタリング、およびトポロジ分析を統合して、顕微鏡制御、サンプルスキャン、画像セグメンテーション、およびインテリジェントな分析を自動化し、追加トレーニングの必要性を排除します。
典型的なMOS2サンプルを分析するとき、私たちのアプローチは、単一層識別のために99.7%のセグメンテーション精度を達成します。これは、人間の専門家と同等です。
さらに、統合されたモデルは、人間の目と同一視するのが難しい粒の境界スリットを検出できます。
さらに、システムは、フォーカス、色温度の変動、曝露の変動などのさまざまな条件にもかかわらず、堅牢な精度を保持します。
グラフェン、MOS2、WSE2を含む一般的な2D材料の広範なスペクトルに適用できます。SNSEは、化学蒸気堆積または機械的剥離を介して製造されたかどうかに関係していません。
この作業は、自律分析を実現するための基礎モデルの実装を表し、ナノスケール材料の研究へのアプローチを根本的に変換するスケーラブルでデータ効率の高い特性評価パラダイムを確立します。

要約(オリジナル)

Characterization of atomic-scale materials traditionally requires human experts with months to years of specialized training. Even for trained human operators, accurate and reliable characterization remains challenging when examining newly discovered materials such as two-dimensional (2D) structures. This bottleneck drives demand for fully autonomous experimentation systems capable of comprehending research objectives without requiring large training datasets. In this work, we present ATOMIC (Autonomous Technology for Optical Microscopy & Intelligent Characterization), an end-to-end framework that integrates foundation models to enable fully autonomous, zero-shot characterization of 2D materials. Our system integrates the vision foundation model (i.e., Segment Anything Model), large language models (i.e., ChatGPT), unsupervised clustering, and topological analysis to automate microscope control, sample scanning, image segmentation, and intelligent analysis through prompt engineering, eliminating the need for additional training. When analyzing typical MoS2 samples, our approach achieves 99.7% segmentation accuracy for single layer identification, which is equivalent to that of human experts. In addition, the integrated model is able to detect grain boundary slits that are challenging to identify with human eyes. Furthermore, the system retains robust accuracy despite variable conditions including defocus, color temperature fluctuations, and exposure variations. It is applicable to a broad spectrum of common 2D materials-including graphene, MoS2, WSe2, SnSe-regardless of whether they were fabricated via chemical vapor deposition or mechanical exfoliation. This work represents the implementation of foundation models to achieve autonomous analysis, establishing a scalable and data-efficient characterization paradigm that fundamentally transforms the approach to nanoscale materials research.

arxiv情報

著者 Jingyun Yang,Ruoyan Avery Yin,Chi Jiang,Yuepeng Hu,Xiaokai Zhu,Xingjian Hu,Sutharsika Kumar,Xiao Wang,Xiaohua Zhai,Keran Rong,Yunyue Zhu,Tianyi Zhang,Zongyou Yin,Jing Kong,Neil Zhenqiang Gong,Zhichu Ren,Haozhe Wang
発行日 2025-04-14 14:49:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mes-hall, cond-mat.mtrl-sci, cs.AI, cs.CV, cs.LG | Zero-shot Autonomous Microscopy for Scalable and Intelligent Characterization of 2D Materials はコメントを受け付けていません

Multi-Level Embedding and Alignment Network with Consistency and Invariance Learning for Cross-View Geo-Localization

要約

Cross-View Geo-Localization(CVGL)には、最も類似したGPSタグ付き衛星画像を取得することにより、ドローン画像のローカリゼーションを決定することが含まれます。
ただし、プラットフォーム間のイメージングギャップはしばしば重要であり、視点の変動は実質的なものであり、既存の方法がクロスビュー機能を効果的に関連付け、一貫した不変特性を抽出する能力を制限します。
さらに、既存の方法は、モデルのパフォーマンスを改善する際の計算およびストレージ要件の増加の問題を見落としていることがよくあります。
これらの制限を処理するために、マルチレベルの埋め込みおよびアライメントネットワーク(平均)と呼ばれる軽量強化アライメントネットワークを提案します。
平均ネットワークは、プログレッシブマルチレベルの拡張戦略、グローバルからローカルへの関連性、およびクロスドメインアライメントを使用して、レベル全体で機能通信を可能にします。
これにより、さまざまなレベルで機能を効果的に接続し、堅牢なクロスビューの一貫したマッピングとモダリティ不変の機能を学習することができます。
さらに、平均は、軽量のブランチ設計と組み合わせた浅いバックボーンネットワークを採用し、パラメーターカウントと計算の複雑さを効果的に削減します。
University-1652およびSUES-200データセットの実験結果は、平均がパラメーター数を62.17%減少させ、最先端のモデルと比較して70.99%減少することを示しています。
私たちのコードとモデルは、https://github.com/ischenawei/meanでリリースされます。

要約(オリジナル)

Cross-View Geo-Localization (CVGL) involves determining the localization of drone images by retrieving the most similar GPS-tagged satellite images. However, the imaging gaps between platforms are often significant and the variations in viewpoints are substantial, which limits the ability of existing methods to effectively associate cross-view features and extract consistent and invariant characteristics. Moreover, existing methods often overlook the problem of increased computational and storage requirements when improving model performance. To handle these limitations, we propose a lightweight enhanced alignment network, called the Multi-Level Embedding and Alignment Network (MEAN). The MEAN network uses a progressive multi-level enhancement strategy, global-to-local associations, and cross-domain alignment, enabling feature communication across levels. This allows MEAN to effectively connect features at different levels and learn robust cross-view consistent mappings and modality-invariant features. Moreover, MEAN adopts a shallow backbone network combined with a lightweight branch design, effectively reducing parameter count and computational complexity. Experimental results on the University-1652 and SUES-200 datasets demonstrate that MEAN reduces parameter count by 62.17% and computational complexity by 70.99% compared to state-of-the-art models, while maintaining competitive or even superior performance. Our code and models will be released on https://github.com/ISChenawei/MEAN.

arxiv情報

著者 Zhongwei Chen,Zhao-Xu Yang,Hai-Jun Rong
発行日 2025-04-14 14:54:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multi-Level Embedding and Alignment Network with Consistency and Invariance Learning for Cross-View Geo-Localization はコメントを受け付けていません

Noise2Ghost: Self-supervised deep convolutional reconstruction for ghost imaging

要約

私たちは、監視されていない方法の中で騒々しい獲得のために比類のない再構築パフォーマンスを提供する、新しい自己監督の深部学習ベースのゴーストイメージング(GI)再構築方法を提示します。
サポート数学的フレームワークと、理論的および実際のデータユースケースの結果を提示します。
Self-Supervisionは、強力なノイズリダクションを提供しながら、クリーンな参照データの必要性を削除します。
これにより、新興および最先端の低照度GIシナリオでのGI取得にシグナルとノイズ比の懸念に対処するために必要なツールが提供されます。
注目すべき例には、用量感受性サンプルのX線蛍光イメージングなど、マイクロおよびナノスケールのX線発光イメージングが含まれます。
それらのアプリケーションには、生物学的サンプルとバッテリーのための生体内およびオペランド内のケーススタディが含まれます。

要約(オリジナル)

We present a new self-supervised deep-learning-based Ghost Imaging (GI) reconstruction method, which provides unparalleled reconstruction performance for noisy acquisitions among unsupervised methods. We present the supporting mathematical framework and results from theoretical and real data use cases. Self-supervision removes the need for clean reference data while offering strong noise reduction. This provides the necessary tools for addressing signal-to-noise ratio concerns for GI acquisitions in emerging and cutting-edge low-light GI scenarios. Notable examples include micro- and nano-scale x-ray emission imaging, e.g., x-ray fluorescence imaging of dose-sensitive samples. Their applications include in-vivo and in-operando case studies for biological samples and batteries.

arxiv情報

著者 Mathieu Manni,Dmitry Karpov,K. Joost Batenburg,Sharon Shwartz,Nicola Viganò
発行日 2025-04-14 14:58:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, physics.data-an | Noise2Ghost: Self-supervised deep convolutional reconstruction for ghost imaging はコメントを受け付けていません

VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

要約

最近、Deepseek R1は、補強学習(RL)が、シンプルで効果的なデザインを通じて、大規模な言語モデル(LLMS)の推論能力を大幅に改善できることを示しています。
R1のコアは、そのルールベースの報酬の定式化にあります。これは、正確で安定した報酬計算を可能にするために、決定論的な根本的な回答でタスクを活用します。
視覚領域では、同様に、幅広い視覚的理解タスクには、明確に定義された根真根の注釈が本質的に装備されていることがわかります。
このプロパティにより、ルールベースの報酬メカニズムと自然に互換性があります。
この観察に動機付けられて、R1スタイルの強化学習の視覚的推論能力の強化を目指して、R1スタイルの強化学習(VLM)への拡張を調査します。
この目的のために、一般的なビジョン言語タスクでVLMSのパフォーマンスを向上させるためにRLを活用するために設計された専用のフレームワークであるVLM-R1を開発します。
このフレームワークを使用して、RLを視覚ドメインに適用する可能性をさらに調査します。
実験結果は、RLベースのモデルが視覚的理解タスクに関する競争力のあるパフォーマンスを提供するだけでなく、一般化能力の監視された微調整(SFT)を上回ることを示しています。
さらに、オブジェクトの検出における報酬ハッキングの存在、「OD AHAモーメント」の出現、データ品質のトレーニングの影響、異なるモデルサイズにわたるRLのスケーリング動作など、一連の注目すべき洞察を明らかにする包括的なアブレーション研究を実施します。
これらの分析を通じて、強化学習がビジョン言語モデルの能力を強化する方法の理解を深めることを目指しており、私たちの調査結果とオープンソースの貢献がビジョン言語RLコミュニティの継続的な進歩をサポートすることを願っています。
コードとモデルはhttps://github.com/om-ai-lab/vlm-r1で入手できます

要約(オリジナル)

Recently DeepSeek R1 has shown that reinforcement learning (RL) can substantially improve the reasoning capabilities of Large Language Models (LLMs) through a simple yet effective design. The core of R1 lies in its rule-based reward formulation, which leverages tasks with deterministic ground-truth answers to enable precise and stable reward computation. In the visual domain, we similarly observe that a wide range of visual understanding tasks are inherently equipped with well-defined ground-truth annotations. This property makes them naturally compatible with rule-based reward mechanisms. Motivated by this observation, we investigate the extension of R1-style reinforcement learning to Vision-Language Models (VLMs), aiming to enhance their visual reasoning capabilities. To this end, we develop VLM-R1, a dedicated framework designed to harness RL for improving VLMs’ performance on general vision-language tasks. Using this framework, we further explore the feasibility of applying RL to visual domain. Experimental results indicate that the RL-based model not only delivers competitive performance on visual understanding tasks but also surpasses Supervised Fine-Tuning (SFT) in generalization ability. Furthermore, we conduct comprehensive ablation studies that uncover a series of noteworthy insights, including the presence of reward hacking in object detection, the emergence of the ‘OD aha moment’, the impact of training data quality, and the scaling behavior of RL across different model sizes. Through these analyses, we aim to deepen the understanding of how reinforcement learning enhances the capabilities of vision-language models, and we hope our findings and open-source contributions will support continued progress in the vision-language RL community. Our code and model are available at https://github.com/om-ai-lab/VLM-R1

arxiv情報

著者 Haozhan Shen,Peng Liu,Jingcheng Li,Chunxin Fang,Yibo Ma,Jiajia Liao,Qiaoli Shen,Zilun Zhang,Kangjia Zhao,Qianqian Zhang,Ruochen Xu,Tiancheng Zhao
発行日 2025-04-14 15:15:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model はコメントを受け付けていません

ESCT3D: Efficient and Selectively Controllable Text-Driven 3D Content Generation with Gaussian Splatting

要約

近年、テキスト駆動型の3Dコンテンツ生成において、大きな進歩がなされています。
ただし、いくつかの課題が残っています。
実際のアプリケーションでは、ユーザーは多くの場合、高品質の3Dコンテンツを期待しながら、非常に単純なテキスト入力を提供します。
このような最小限のテキストから最適な結果を生成することは、入力プロンプトの品質にテキストから3Dモデルが強く依存しているため、困難なタスクです。
さらに、生成プロセスは高いばらつきを示し、制御が困難になります。
したがって、ユーザーの期待を満たすコンテンツを作成し、生成効率を低下させるために、通常、複数の反復が必要です。
この問題に対処するために、自己最適化のためにGPT-4Vを提案します。これにより、1回の試行で満足のいくコンテンツを生成する効率が大幅に向上します。
さらに、テキストから3Dの生成方法の制御可能性は完全には検討されていません。
当社のアプローチにより、ユーザーはテキストの説明を提供するだけでなく、スタイル、エッジ、落書き、ポーズ、複数の条件の組み合わせなどの追加の条件を指定し、生成された3Dコンテンツをより正確に制御できるようになります。
さらに、トレーニング中に、マルチビューの深さ、マスク、機能、画像などのマルチビュー情報を効果的に統合して、3Dコンテンツ生成の一般的なヤヌス問題に対処します。
広範な実験は、我々の方法が堅牢な一般化を達成し、高品質の3Dコンテンツの効率的で制御可能な生成を促進することを示しています。

要約(オリジナル)

In recent years, significant advancements have been made in text-driven 3D content generation. However, several challenges remain. In practical applications, users often provide extremely simple text inputs while expecting high-quality 3D content. Generating optimal results from such minimal text is a difficult task due to the strong dependency of text-to-3D models on the quality of input prompts. Moreover, the generation process exhibits high variability, making it difficult to control. Consequently, multiple iterations are typically required to produce content that meets user expectations, reducing generation efficiency. To address this issue, we propose GPT-4V for self-optimization, which significantly enhances the efficiency of generating satisfactory content in a single attempt. Furthermore, the controllability of text-to-3D generation methods has not been fully explored. Our approach enables users to not only provide textual descriptions but also specify additional conditions, such as style, edges, scribbles, poses, or combinations of multiple conditions, allowing for more precise control over the generated 3D content. Additionally, during training, we effectively integrate multi-view information, including multi-view depth, masks, features, and images, to address the common Janus problem in 3D content generation. Extensive experiments demonstrate that our method achieves robust generalization, facilitating the efficient and controllable generation of high-quality 3D content.

arxiv情報

著者 Huiqi Wu,Jianbo Mei,Yingjie Huang,Yining Xu,Jingjiao You,Yilong Liu,Li Yao
発行日 2025-04-14 15:25:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ESCT3D: Efficient and Selectively Controllable Text-Driven 3D Content Generation with Gaussian Splatting はコメントを受け付けていません

Analysis of Attention in Video Diffusion Transformers

要約

ビデオ拡散トランス(VDIT)で注意の詳細な分析を実施し、多くの新しい発見を報告します。
VDITで注意の3つの重要な特性を特定します:構造、スパース、シンク。
構造:さまざまなVDITにまたがる注意パターンは、異なるプロンプトで同様の構造を示し、注意パターンの類似性を利用して、自己攻撃マップ転送を介してビデオ編集のロックを解除できることが観察されます。
スパース:私たちはVDITで注意を払うスパース性を研究しています。提案されたスパースの方法はすべてのVDITで機能しないことを発見しました。
シンク:VDITの注意シンクの最初の研究を行い、それらを言語モデルの注意シンクと比較して対比します。
私たちは、VDITの効率性のパレートフロンティアを改善するために、私たちの洞察を利用できる多くの将来の方向を提案します。

要約(オリジナル)

We conduct an in-depth analysis of attention in video diffusion transformers (VDiTs) and report a number of novel findings. We identify three key properties of attention in VDiTs: Structure, Sparsity, and Sinks. Structure: We observe that attention patterns across different VDiTs exhibit similar structure across different prompts, and that we can make use of the similarity of attention patterns to unlock video editing via self-attention map transfer. Sparse: We study attention sparsity in VDiTs, finding that proposed sparsity methods do not work for all VDiTs, because some layers that are seemingly sparse cannot be sparsified. Sinks: We make the first study of attention sinks in VDiTs, comparing and contrasting them to attention sinks in language models. We propose a number of future directions that can make use of our insights to improve the efficiency-quality Pareto frontier for VDiTs.

arxiv情報

著者 Yuxin Wen,Jim Wu,Ajay Jain,Tom Goldstein,Ashwinee Panda
発行日 2025-04-14 15:25:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Analysis of Attention in Video Diffusion Transformers はコメントを受け付けていません

SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model

要約

ビデオアノマリー検出(VAD)は、ビデオで予期しないイベントを特定することを目的としており、安全性が批判的なドメインで幅広いアプリケーションを持っています。
通常のサンプルのみで訓練された半監視方法は牽引力を獲得していますが、多くの場合、誤報率が高く、解釈が不十分です。
最近、ビジョン言語モデル(VLM)は強力なマルチモーダル推論機能を実証し、説明可能な異常検出の新しい機会を提供しています。
ただし、それらの高い計算コストとドメイン適応の欠如は、リアルタイムの展開と信頼性を妨げています。
人間の視覚的知覚における二重の補完的な経路に触発されて、私たちは、急速な異常検出器を遅い異常検出器(つまり検索拡張生成(RAG)強化VLM)と統合するハイブリッドフレームワークであるSlowFastVadを提案し、これらの制限に対処します。
具体的には、Fast Detectorは最初に粗い異常信頼スコアを提供し、ビデオ全体ではなく、あいまいなセグメントの小さなサブセットのみを提供しますが、精巧な検出と推論のために、より遅いさらに解釈可能なVLMによってさらに分析されます。
さらに、VLMSをドメイン固有のVADシナリオに適応させるために、VLMSによって推測される通常のサンプルや異常なパターンに基づいた通常のパターンを含む知識ベースを構築します。
推論中、関連するパターンが取得され、異常推論のプロンプトを増強するために使用されます。
最後に、高速および遅い検出器の異常な信頼をスムーズに融合して、異常検出の堅牢性を高めます。
4つのベンチマークでの広範な実験は、SlowFastVADが高速検出器と遅い検出器の両方の強度を効果的に組み合わせており、計算オーバーヘッドが大幅に低下して顕著な検出精度と解釈性を達成し、高い信頼性要件を備えた実際のVADアプリケーションに適していることを示しています。

要約(オリジナル)

Video anomaly detection (VAD) aims to identify unexpected events in videos and has wide applications in safety-critical domains. While semi-supervised methods trained on only normal samples have gained traction, they often suffer from high false alarm rates and poor interpretability. Recently, vision-language models (VLMs) have demonstrated strong multimodal reasoning capabilities, offering new opportunities for explainable anomaly detection. However, their high computational cost and lack of domain adaptation hinder real-time deployment and reliability. Inspired by dual complementary pathways in human visual perception, we propose SlowFastVAD, a hybrid framework that integrates a fast anomaly detector with a slow anomaly detector (namely a retrieval augmented generation (RAG) enhanced VLM), to address these limitations. Specifically, the fast detector first provides coarse anomaly confidence scores, and only a small subset of ambiguous segments, rather than the entire video, is further analyzed by the slower yet more interpretable VLM for elaborate detection and reasoning. Furthermore, to adapt VLMs to domain-specific VAD scenarios, we construct a knowledge base including normal patterns based on few normal samples and abnormal patterns inferred by VLMs. During inference, relevant patterns are retrieved and used to augment prompts for anomaly reasoning. Finally, we smoothly fuse the anomaly confidence of fast and slow detectors to enhance robustness of anomaly detection. Extensive experiments on four benchmarks demonstrate that SlowFastVAD effectively combines the strengths of both fast and slow detectors, and achieves remarkable detection accuracy and interpretability with significantly reduced computational overhead, making it well-suited for real-world VAD applications with high reliability requirements.

arxiv情報

著者 Zongcan Ding,Haodong Zhang,Peng Wu,Guansong Pang,Zhiwei Yang,Peng Wang,Yanning Zhang
発行日 2025-04-14 15:30:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model はコメントを受け付けていません

InstructEngine: Instruction-driven Text-to-Image Alignment

要約

補強材/AIフィードバック(RLHF/RLAIF)からの学習は、テキストから画像モデルの優先アラインメントのために広く利用されています。
既存の方法は、データとアルゴリズムの両方の観点から特定の制限に直面しています。
トレーニングデータの場合、ほとんどのアプローチは、ジェネレーターを直接微調整するか、トレーニング報酬モデルをトレーニングするためにトレーニングの信号を提供することにより、手動注釈付き選好データに依存しています。
ただし、注釈コストが高いため、スケールアップが困難になり、報酬モデルは追加の計算を消費し、精度を保証できません。
アルゴリズムの観点から、ほとんどの方法はテキストの値を無視し、画像フィードバックを比較信号としてのみ使用します。これは非効率的でまばらです。
これらの欠点を軽減するために、InstructEngineフレームワークを提案します。
注釈コストに関して、最初にテキストから画像の生成のための分類法を構築し、次にそれに基づいて自動化されたデータ構築パイプラインを開発します。
高度な大規模なマルチモーダルモデルと人間定義のルールを活用して、25Kのテキストイメージ優先ペアを生成します。
最後に、相互に類似したサンプルを相互に匹敵するペアに整理することにより、データ効率を改良する相互検証アライメント法を導入します。
Drawbenchの評価は、InstruceEntingineがSD V1.5とSDXLのパフォーマンスを10.53%および5.30%改善し、最先端のベースラインを上回ることを示しており、Ablation StudyはInstractEngineのすべてのコンポーネントの利点を確認しています。
人間のレビューで50%以上の勝利率は、Instructentengineが人間の好みとより適合していることを証明しています。

要約(オリジナル)

Reinforcement Learning from Human/AI Feedback (RLHF/RLAIF) has been extensively utilized for preference alignment of text-to-image models. Existing methods face certain limitations in terms of both data and algorithm. For training data, most approaches rely on manual annotated preference data, either by directly fine-tuning the generators or by training reward models to provide training signals. However, the high annotation cost makes them difficult to scale up, the reward model consumes extra computation and cannot guarantee accuracy. From an algorithmic perspective, most methods neglect the value of text and only take the image feedback as a comparative signal, which is inefficient and sparse. To alleviate these drawbacks, we propose the InstructEngine framework. Regarding annotation cost, we first construct a taxonomy for text-to-image generation, then develop an automated data construction pipeline based on it. Leveraging advanced large multimodal models and human-defined rules, we generate 25K text-image preference pairs. Finally, we introduce cross-validation alignment method, which refines data efficiency by organizing semantically analogous samples into mutually comparable pairs. Evaluations on DrawBench demonstrate that InstructEngine improves SD v1.5 and SDXL’s performance by 10.53% and 5.30%, outperforming state-of-the-art baselines, with ablation study confirming the benefits of InstructEngine’s all components. A win rate of over 50% in human reviews also proves that InstructEngine better aligns with human preferences.

arxiv情報

著者 Xingyu Lu,Yuhang Hu,YiFan Zhang,Kaiyu Jiang,Changyi Liu,Tianke Zhang,Jinpeng Wang,Bin Wen,Chun Yuan,Fan Yang,Tingting Gao,Di Zhang
発行日 2025-04-14 15:36:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | InstructEngine: Instruction-driven Text-to-Image Alignment はコメントを受け付けていません