COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training

要約

対照的な損失で訓練されたビジョン言語モデル(VLM)は、さまざまなビジョンおよび言語タスクの大きな進歩を達成しました。
ただし、対照的な損失のグローバルな性質により、VLMは主に前景オブジェクトに焦点を合わせ、画像内の他の重要な情報を無視して、下流タスクの有効性を制限します。
これらの課題に対処するために、コスモスを提案します:新しいテキストクロップ戦略とクロスアテナンスモジュールを自己監視学習フレームワークに統合するビジョン言語前トレーニングのための相互モダリティ自己抵抗。
私たちは、VLMSでの自己抵抗に不可欠な画像とテキスト(つまり、マルチモーダルの増強)のグローバルおよびローカルビューを作成します。
さらに、クロスアテンションモジュールを導入し、Cosmosがクロスモーダリティの自己導入損失を介して最適化された包括的なクロスモーダル表現を学習できるようにします。
Cosmosは、検索、分類、セマンティックセグメンテーションなど、さまざまなゼロショット下流タスクの以前の強力なベースラインよりも一貫して優れています。
さらに、視覚的知覚とコンテキスト理解タスクでより大きなデータセットでトレーニングされたクリップベースのモデルを上回ります。
コードはhttps://github.com/explainableml/cosmosで入手できます。

要約(オリジナル)

Vision-Language Models (VLMs) trained with contrastive loss have achieved significant advancements in various vision and language tasks. However, the global nature of the contrastive loss makes VLMs focus predominantly on foreground objects, neglecting other crucial information in the image, which limits their effectiveness in downstream tasks. To address these challenges, we propose COSMOS: CrOSs-MOdality Self-distillation for vision-language pre-training that integrates a novel text-cropping strategy and cross-attention module into a self-supervised learning framework. We create global and local views of images and texts (i.e., multi-modal augmentations), which are essential for self-distillation in VLMs. We further introduce a cross-attention module, enabling COSMOS to learn comprehensive cross-modal representations optimized via a cross-modality self-distillation loss. COSMOS consistently outperforms previous strong baselines on various zero-shot downstream tasks, including retrieval, classification, and semantic segmentation. Additionally, it surpasses CLIP-based models trained on larger datasets in visual perception and contextual understanding tasks. Code is available at https://github.com/ExplainableML/cosmos.

arxiv情報

著者 Sanghwan Kim,Rui Xiao,Mariana-Iuliana Georgescu,Stephan Alaniz,Zeynep Akata
発行日 2025-03-26 16:07:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training はコメントを受け付けていません

Vision as LoRA

要約

LLMをMLLMに変換するための新しいパラダイムであるLora(Vora)としてのビジョンを紹介します。
Visionエンコードの外部ビジョンモジュールに依存する一般的なMLLMアーキテクチャとは異なり、Voraは視覚固有のLORA層をLLMに直接統合することにより、視覚能力を内部化します。
この設計により、追加されたパラメーターを推論中にシームレスにLLMにマージし、構造の複雑さを排除し、計算オーバーヘッドを最小化できます。
さらに、柔軟なコンテキストを処理するLLMの能力を継承すると、VORAは任意の解像度で入力を処理できます。
VORAの視覚能力をさらに強化するために、視覚的なプライアーを事前に訓練したVITからLORA層に転送するブロックごとの蒸留方法を導入し、視覚的知識を注入することでトレーニングを効果的に加速します。
さらに、双方向の注意マスクを適用して、画像のコンテキスト情報をより適切にキャプチャします。
追加のトレーニング前のデータを追加すると、VORAは従来のエンコードベースのMLLMと同等に機能できることを実証しました。
すべてのトレーニングデータ、コード、およびモデルの重みは、https://github.com/hon-wong/voraでリリースされます。

要約(オリジナル)

We introduce Vision as LoRA (VoRA), a novel paradigm for transforming an LLM into an MLLM. Unlike prevalent MLLM architectures that rely on external vision modules for vision encoding, VoRA internalizes visual capabilities by integrating vision-specific LoRA layers directly into the LLM. This design allows the added parameters to be seamlessly merged into the LLM during inference, eliminating structural complexity and minimizing computational overhead. Moreover, inheriting the LLM’s ability of handling flexible context, VoRA can process inputs at arbitrary resolutions. To further strengthen VoRA’s visual capabilities, we introduce a block-wise distillation method that transfers visual priors from a pre-trained ViT into the LoRA layers, effectively accelerating training by injecting visual knowledge. Additionally, we apply bi-directional attention masks to better capture the context information of an image. We successfully demonstrate that with additional pre-training data, VoRA can perform comparably with conventional encode-based MLLMs. All training data, codes, and model weights will be released at https://github.com/Hon-Wong/VoRA.

arxiv情報

著者 Han Wang,Yongjie Ye,Bingru Li,Yuxiang Nie,Jinghui Lu,Jingqun Tang,Yanjie Wang,Can Huang
発行日 2025-03-26 16:15:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Vision as LoRA はコメントを受け付けていません

Towards Scalable Foundation Model for Multi-modal and Hyperspectral Geospatial Data

要約

さまざまな時期やスペクトルバンドで衛星ベースのイメージングシステムによって収集されたような地理空間ラスターデータは、幅広いインパクトの高いアプリケーションを可能にする大きな可能性を秘めています。
この潜在的なものは、複数のチャネルとセンシングモダリティにわたって空間的および時間的にコンテキスト化された豊富な情報に由来します。
最近の研究は、このような地理空間データの既存の自己監視学習アプローチを採用しています。
ただし、スケーラブルなモデルアーキテクチャには及ばず、ますます多くのチャネルとモダリティに直面した場合、柔軟性と計算の非効率性になります。
これらの制限に対処するために、3つの重要な革新を備えた低ランク効率の高い空間スペクトル視力変圧器を導入します。i)低次元空間およびスペクトル注意成分のKroneckerの積を通じて高次元空間スペクトルの注意を近似する注意ブロック。
ii)各空間スペクトルパッチの連続性と物理的特性の両方を保持する連続位置チャネル埋め込み層。
およびiii)隣接するパッチへの注意を制約することにより、ローカルの空間依存性を悪用する知覚フィールドマスク。
提案されたイノベーションを評価するために、このような地理空間ラスターデータの包括的なベンチマークとして機能するGFMベンチを構築します。
統合された位置とチャネルのマ​​スキング戦略を備えたハイパースペクトルマスクされた自動エンコーダーフレームワークを使用して、vitを少なくします。
実験結果は、提案された方法が、最先端のマルチモーダル地理空間基礎モデルに対して競争力のあるパフォーマンスを達成しながら、計算効率が高いため、クロスサテライト一般化タスクでそれらを上回ることを示しています。
フレームワークの柔軟性と拡張性により、幅広いモダリティとチャネルを含む将来の地理空間データ分析タスクの有望な方向になります。

要約(オリジナル)

Geospatial raster data, such as that collected by satellite-based imaging systems at different times and spectral bands, hold immense potential for enabling a wide range of high-impact applications. This potential stems from the rich information that is spatially and temporally contextualized across multiple channels and sensing modalities. Recent work has adapted existing self-supervised learning approaches for such geospatial data. However, they fall short of scalable model architectures, leading to inflexibility and computational inefficiencies when faced with an increasing number of channels and modalities. To address these limitations, we introduce Low-rank Efficient Spatial-Spectral Vision Transformer with three key innovations: i) the LESS Attention Block that approximates high-dimensional spatial-spectral attention through Kronecker’s product of the low-dimensional spatial and spectral attention components; ii) the Continuous Positional-Channel Embedding Layer that preserves both the continuity and physical characteristics of each spatial-spectral patch; and iii) the Perception Field Mask that exploits local spatial dependencies by constraining attention to neighboring patches. To evaluate the proposed innovations, we construct GFM-Bench, which serves as a comprehensive benchmark for such geospatial raster data. We pretrain LESS ViT using a Hyperspectral Masked Autoencoder framework with integrated positional and channel masking strategies. Experimental results demonstrate that our proposed method achieves competitive performance against state-of-the-art multi-modal geospatial foundation models while outperforming them on cross-satellite generalization tasks with higher computational efficiency. The flexibility and extensibility of our framework make it a promising direction for future geospatial data analysis tasks that involve a wide range of modalities and channels.

arxiv情報

著者 Haozhe Si,Yuxuan Wan,Minh Do,Deepak Vasisht,Han Zhao,Hendrik F. Hamann
発行日 2025-03-26 16:15:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Towards Scalable Foundation Model for Multi-modal and Hyperspectral Geospatial Data はコメントを受け付けていません

Benchmarking Machine Learning Methods for Distributed Acoustic Sensing

要約

分散音響センシング(DAS)テクノロジーは、光ファイバーに沿った微小摂動の検出を通じてリアルタイムの音響信号モニタリングを可能にする革新的な光ファイバーベースのセンシング方法論を表しています。
このセンシングアプローチは、広範な測定範囲、例外的な空間分解能、広範な動的測定スペクトルなど、魅力的な利点を提供します。
機械学習(ML)パラダイムの統合は、データ増強、洗練された前処理技術、高度な音響イベントの分類と認識などの重要なドメインを含むDASテクノロジーの変革の可能性を示します。
MLアルゴリズムを活用することにより、DASシステムは、従来のデータ処理方法から、より自動化されたインテリジェントな分析フレームワークに移行できます。
ML強化DASテクノロジーが提供する計算インテリジェンスは、多様な重要なインフラセクター全体で前例のない監視機能を促進します。
特に注目に値するのは、輸送インフラストラクチャ、エネルギー管理システム、および自然災害監視フレームワークにおけるテクノロジーのアプリケーションで、データ収集の正確さとインテリジェントな意思決定メカニズムの信頼性が最も重要です。
この研究では、DASのデータ認識と解釈のコンテキストで、古典的な機械学習方法論と最先端の深い学習モデルの比較パフォーマンス特性を批判的に検証し、インテリジェントセンシングテクノロジーの進化する状況に関する包括的な洞察を提供します。

要約(オリジナル)

Distributed acoustic sensing (DAS) technology represents an innovative fiber-optic-based sensing methodology that enables real-time acoustic signal monitoring through the detection of minute perturbations along optical fibers. This sensing approach offers compelling advantages, including extensive measurement ranges, exceptional spatial resolution, and an expansive dynamic measurement spectrum. The integration of machine learning (ML) paradigms presents transformative potential for DAS technology, encompassing critical domains such as data augmentation, sophisticated preprocessing techniques, and advanced acoustic event classification and recognition. By leveraging ML algorithms, DAS systems can transition from traditional data processing methodologies to more automated and intelligent analytical frameworks. The computational intelligence afforded by ML-enhanced DAS technologies facilitates unprecedented monitoring capabilities across diverse critical infrastructure sectors. Particularly noteworthy are the technology’s applications in transportation infrastructure, energy management systems, and Natural disaster monitoring frameworks, where the precision of data acquisition and the reliability of intelligent decision-making mechanisms are paramount. This research critically examines the comparative performance characteristics of classical machine learning methodologies and state-of-the-art deep learning models in the context of DAS data recognition and interpretation, offering comprehensive insights into the evolving landscape of intelligent sensing technologies.

arxiv情報

著者 Shuaikai Shi,Qijun Zong
発行日 2025-03-26 16:17:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Benchmarking Machine Learning Methods for Distributed Acoustic Sensing はコメントを受け付けていません

GLRD: Global-Local Collaborative Reason and Debate with PSL for 3D Open-Vocabulary Detection

要約

LIDARベースの3Dオープンボキャブラリー検出(3D OVD)のタスクでは、検出器が既製のトレーニングラベルなしでポイントクラウドから新しいオブジェクトを検出することを学習する必要があります。
以前の方法は、オブジェクトレベルの表現の学習に焦点を当て、シーンレベルの情報を無視するため、同様のクラスを持つオブジェクトを区別することは困難です。
この作業では、ローカルオブジェクトレベルの情報とグローバルシーンレベルの情報の両方を考慮して、3D OVDタスクのPSL(GLRD)フレームワークとのグローバルローカルコラボレーションの理由と議論を提案します。
具体的には、LLMはオブジェクトレベルとシーンレベルの情報に基づいて常識推論を実行するために使用され、それに応じて検出結果が改良されます。
LLMの正確な決定の能力をさらに高めるために、最適なソリューションを検索するために確率的ソフトロジックソルバー(OV-PSL)と、混乱しやすいオブジェクトのクラスを確認する討論スキームも設計します。
さらに、クラスの不均一な分布を軽減するために、静的バランススキーム(SBC)と動的バランススキーム(DBC)が設計されています。
さらに、データとトレーニングにおけるノイズの影響を減らすために、さらに反射した擬似ラベル生成(RPLG)およびバックグラウンドアウェアオブジェクトのローカリゼーション(BAOL)を提案します。
ScannetとSun RGB-Dで実施された広範な実験は、GLRDの優位性を示しています。平均平均精度の絶対的な改善は、Sun RGB-Dの$+2.82 \%$であり、部分的な開口部の環境でScannetで$+3.72 \%$です。
完全なオープンボキャブラリー設定では、平均平均精度の絶対的な改善は、Scannetで$+4.03 \%$、Sun RGB-Dで$ 14.11 \%$です。

要約(オリジナル)

The task of LiDAR-based 3D Open-Vocabulary Detection (3D OVD) requires the detector to learn to detect novel objects from point clouds without off-the-shelf training labels. Previous methods focus on the learning of object-level representations and ignore the scene-level information, thus it is hard to distinguish objects with similar classes. In this work, we propose a Global-Local Collaborative Reason and Debate with PSL (GLRD) framework for the 3D OVD task, considering both local object-level information and global scene-level information. Specifically, LLM is utilized to perform common sense reasoning based on object-level and scene-level information, where the detection result is refined accordingly. To further boost the LLM’s ability of precise decisions, we also design a probabilistic soft logic solver (OV-PSL) to search for the optimal solution, and a debate scheme to confirm the class of confusable objects. In addition, to alleviate the uneven distribution of classes, a static balance scheme (SBC) and a dynamic balance scheme (DBC) are designed. In addition, to reduce the influence of noise in data and training, we further propose Reflected Pseudo Labels Generation (RPLG) and Background-Aware Object Localization (BAOL). Extensive experiments conducted on ScanNet and SUN RGB-D demonstrate the superiority of GLRD, where absolute improvements in mean average precision are $+2.82\%$ on SUN RGB-D and $+3.72\%$ on ScanNet in the partial open-vocabulary setting. In the full open-vocabulary setting, the absolute improvements in mean average precision are $+4.03\%$ on ScanNet and $+14.11\%$ on SUN RGB-D.

arxiv情報

著者 Xingyu Peng,Si Liu,Chen Gao,Yan Bai,Beipeng Mu,Xiaofei Wang,Huaxia Xia
発行日 2025-03-26 16:18:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GLRD: Global-Local Collaborative Reason and Debate with PSL for 3D Open-Vocabulary Detection はコメントを受け付けていません

Flip Learning: Weakly Supervised Erase to Segment Nodules in Breast Ultrasound

要約

2D乳房超音波(BUS)と3D自動乳房超音波(ABUS)の両方における結節の正確なセグメンテーションは、臨床診断と治療計画に重要です。
したがって、結節セグメンテーションのための自動システムを開発することで、ユーザーの独立性を高め、臨床分析を促進することができます。
完全に監視された学習とは異なり、弱く監視されたセグメンテーション(WSS)は、面倒で複雑な注釈プロセスを合理化できます。
ただし、現在のWSSメソッドは、正確な結節セグメンテーションを達成する上で課題に直面しています。その多くは、不正確な活性化マップまたは非効率的な擬似マスク生成アルゴリズムに依存しているためです。
この研究では、正確なセグメンテーションのために2D/3Dボックスのみに依存するFlip Learningと呼ばれる新しいマルチエージェント補強学習ベースのWSSフレームワークを紹介します。
具体的には、複数のエージェントがボックスからターゲットを消去するために使用され、分類タグの反転を容易にし、消去された領域が予測されたセグメンテーションマスクとして機能します。
この研究の重要な貢献は、次のとおりです。(1)標準化された環境をエンコードし、境界前のキャプチャをキャプチャし、学習プロセスを促進するためのスーパーピクセル/スーパーオクセルベースのアプローチの採用。
(2)分類スコアの報酬と2つの強度分布報酬を含む3つの細心の注意を払って設計された報酬の導入。
(3)エージェントが徐々に挑戦的な方法で環境と対話し、それによって学習効率を高めるための進歩的なカリキュラム学習戦略の実装。
大規模な社内バスおよびABUSデータセットで広範囲に検証されているフリップ学習方法は、最先端のWSSメソッドと基礎モデルよりも優れており、完全に監視された学習アルゴリズムとして同等のパフォーマンスを実現します。

要約(オリジナル)

Accurate segmentation of nodules in both 2D breast ultrasound (BUS) and 3D automated breast ultrasound (ABUS) is crucial for clinical diagnosis and treatment planning. Therefore, developing an automated system for nodule segmentation can enhance user independence and expedite clinical analysis. Unlike fully-supervised learning, weakly-supervised segmentation (WSS) can streamline the laborious and intricate annotation process. However, current WSS methods face challenges in achieving precise nodule segmentation, as many of them depend on inaccurate activation maps or inefficient pseudo-mask generation algorithms. In this study, we introduce a novel multi-agent reinforcement learning-based WSS framework called Flip Learning, which relies solely on 2D/3D boxes for accurate segmentation. Specifically, multiple agents are employed to erase the target from the box to facilitate classification tag flipping, with the erased region serving as the predicted segmentation mask. The key contributions of this research are as follows: (1) Adoption of a superpixel/supervoxel-based approach to encode the standardized environment, capturing boundary priors and expediting the learning process. (2) Introduction of three meticulously designed rewards, comprising a classification score reward and two intensity distribution rewards, to steer the agents’ erasing process precisely, thereby avoiding both under- and over-segmentation. (3) Implementation of a progressive curriculum learning strategy to enable agents to interact with the environment in a progressively challenging manner, thereby enhancing learning efficiency. Extensively validated on the large in-house BUS and ABUS datasets, our Flip Learning method outperforms state-of-the-art WSS methods and foundation models, and achieves comparable performance as fully-supervised learning algorithms.

arxiv情報

著者 Yuhao Huang,Ao Chang,Haoran Dou,Xing Tao,Xinrui Zhou,Yan Cao,Ruobing Huang,Alejandro F Frangi,Lingyun Bao,Xin Yang,Dong Ni
発行日 2025-03-26 16:20:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Flip Learning: Weakly Supervised Erase to Segment Nodules in Breast Ultrasound はコメントを受け付けていません

Harmony: A Joint Self-Supervised and Weakly-Supervised Framework for Learning General Purpose Visual Representations

要約

クリップなどのビジョン言語対照学習フレームワークは、自然言語の監督から学習表現を可能にし、強力なゼロショット分類機能を提供します。
ただし、これらのパラダイムの監督信号の性質により、局所的な機能を学習する能力がなく、セグメンテーションや検出などの密な予測タスクのパフォーマンスが低下します。
一方、自己教師の学習方法は、視覚系トレーニングの高レベルの機能を補完する粒状表現を学習する能力を示しています。
この作業では、視覚言語のトレーニングと差別的および生成的なセルフスーパービジョンを組み合わせて、さまざまなビジョンの下流タスクで一般化できる視覚的特徴を学習するフレームワークであるHarmonyを提示します。
私たちのフレームワークは、ネガティブな例に依存せず、EMAモデルによって生成されたソフトクリップターゲットを使用して1対1の対応の問題に対処することにより、Webスクレイプデータで動作するように特別に設計されています。
さまざまなビジョンの下流タスクにわたるハーモニーを包括的に評価し、ベースラインクリップと以前の主要な関節自己および弱く監視された方法、マスククリップとスリップを大幅に上回ることがわかります。
具体的には、これらの方法と比較すると、ハーモニーは、CC3MでVIT-Bを事前トレーニングするときに、Imagenet-1Kの微調整およびゼロショット分類、ADE20Kのセマンティックセグメンテーション、およびMS-COCOのオブジェクト検出とインスタンスセグメンテーションの両方で優れたパフォーマンスを示します。
また、ハーモニーは、評価されたすべてのタスクでIbotやMAEなどの他の自己監視学習方法を上回ることも示しています。
私たちのコードは、https://github.com/mohammedsb/harmony} {https://github.com/mohammedsb/harmonyで公開されています。

要約(オリジナル)

Vision-language contrastive learning frameworks like CLIP enable learning representations from natural language supervision, and provide strong zero-shot classification capabilities. However, due to the nature of the supervisory signal in these paradigms, they lack the ability to learn localized features, leading to degraded performance on dense prediction tasks like segmentation and detection. On the other hand, self-supervised learning methods have shown the ability to learn granular representations, complementing the high-level features in vision-language training. In this work, we present Harmony, a framework that combines vision-language training with discriminative and generative self-supervision to learn visual features that can be generalized across different vision downstream tasks. Our framework is specifically designed to work on web-scraped data by not relying on negative examples and addressing the one-to-one correspondence issue using soft CLIP targets generated by an EMA model. We comprehensively evaluate Harmony across various vision downstream tasks and find that it significantly outperforms the baseline CLIP and the previously leading joint self and weakly-supervised methods, MaskCLIP and SLIP. Specifically, when comparing against these methods, Harmony shows superior performance in fine-tuning and zero-shot classification on ImageNet-1k, semantic segmentation on ADE20K, and both object detection and instance segmentation on MS-COCO, when pre-training a ViT-B on CC3M. We also show that Harmony outperforms other self-supervised learning methods like iBOT and MAE across all tasks evaluated. Our code is publicly at https://github.com/MohammedSB/Harmony}{https://github.com/MohammedSB/Harmony available.

arxiv情報

著者 Mohammed Baharoon,Jonathan Klein,Dominik L. Michels
発行日 2025-03-26 16:23:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 68T45, cs.CV, cs.LG, I.2.10 | Harmony: A Joint Self-Supervised and Weakly-Supervised Framework for Learning General Purpose Visual Representations はコメントを受け付けていません

Data Augmentation in Earth Observation: A Diffusion Model Approach

要約

高品質の地球観測(EO)画像は、正確な分析とセクター全体で情報に基づいた意思決定に不可欠です。
ただし、大気の状態、季節の変動、および限られた地理的カバレッジによって引き起こされるデータ不足は、EOの人工知能(AI)の効果的な適用を妨げます。
基本的なパラメーター化された画像変換に依存する従来のデータ増強技術は、多くの場合、主要なセマンティック軸に十分な多様性を導入できません。
これらの軸には、雪や洪水などの自然な変化、都市化や道路などの人間の影響、およびEOアプリケーションのAIモデルの精度を制限する山火事や嵐などの災害が含まれます。
これに対処するために、拡散モデルを統合してセマンティックの多様性を高める4段階のデータ増強アプローチを提案します。
私たちの方法では、指導の生成にメタプロムプト、豊富なキャプション、EO固有の拡散モデルの微調整、および反復データ増強のためのビジョン言語モデルを採用しています。
4つの拡張技術を使用した広範な実験は、私たちのアプローチが確立された方法を一貫してパフォーマンスし、意味的に多様なEO画像を生成し、AIモデルのパフォーマンスを改善することを示しています。

要約(オリジナル)

High-quality Earth Observation (EO) imagery is essential for accurate analysis and informed decision making across sectors. However, data scarcity caused by atmospheric conditions, seasonal variations, and limited geographical coverage hinders the effective application of Artificial Intelligence (AI) in EO. Traditional data augmentation techniques, which rely on basic parameterized image transformations, often fail to introduce sufficient diversity across key semantic axes. These axes include natural changes such as snow and floods, human impacts like urbanization and roads, and disasters such as wildfires and storms, which limits the accuracy of AI models in EO applications. To address this, we propose a four-stage data augmentation approach that integrates diffusion models to enhance semantic diversity. Our method employs meta-prompts for instruction generation, vision-language models for rich captioning, EO-specific diffusion model fine-tuning, and iterative data augmentation. Extensive experiments using four augmentation techniques demonstrate that our approach consistently outperforms established methods, generating semantically diverse EO images and improving AI model performance.

arxiv情報

著者 Tiago Sousa,Benoît Ries,Nicolas Guelfi
発行日 2025-03-26 16:23:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.SE, I.2.m | Data Augmentation in Earth Observation: A Diffusion Model Approach はコメントを受け付けていません

MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion

要約

ビデオには、視覚イベント、テキストオーバーレイ、サウンド、音声など、複数のモダリティが本質的に含まれています。これらはすべて検索に重要​​です。
ただし、VastやLanguageBindなどの最先端のマルチモーダル言語モデルは、Vision言語モデル(VLM)に基づいて構築されているため、視覚信号を過度に優先します。
検索ベンチマークは、視覚的なクエリに焦点を当て、他のモダリティを無視することにより、このバイアスをさらに強化します。
視覚モダリティとオーディオモダリティの両方からテキストと機能を抽出し、新しいモダリティを認識した加重相互ランク融合と統合する検索システムmmmorrfを作成します。
Mmmorrfは効果的かつ効率的であり、視覚的な記述クエリの代わりにユーザーの情報ニーズに基づいてビデオを検索する際の実用性を示しています。
Multivent 2.0とTVRのMmmorrfを評価します。これは、よりターゲットを絞った情報ニーズに合わせて設計された2つのマルチモーダルベンチマークであり、主要なマルチモーダルエンコーダーよりもNDCG@20 x 81%、単一モダリティの検索よりも37%を改善し、多様なモダリティを統合する価値を示しています。

要約(オリジナル)

Videos inherently contain multiple modalities, including visual events, text overlays, sounds, and speech, all of which are important for retrieval. However, state-of-the-art multimodal language models like VAST and LanguageBind are built on vision-language models (VLMs), and thus overly prioritize visual signals. Retrieval benchmarks further reinforce this bias by focusing on visual queries and neglecting other modalities. We create a search system MMMORRF that extracts text and features from both visual and audio modalities and integrates them with a novel modality-aware weighted reciprocal rank fusion. MMMORRF is both effective and efficient, demonstrating practicality in searching videos based on users’ information needs instead of visual descriptive queries. We evaluate MMMORRF on MultiVENT 2.0 and TVR, two multimodal benchmarks designed for more targeted information needs, and find that it improves nDCG@20 by 81% over leading multimodal encoders and 37% over single-modality retrieval, demonstrating the value of integrating diverse modalities.

arxiv情報

著者 Saron Samuel,Dan DeGenaro,Jimena Guallar-Blasco,Kate Sanders,Oluwaseun Eisape,Arun Reddy,Alexander Martin,Andrew Yates,Eugene Yang,Cameron Carpenter,David Etter,Efsun Kayi,Matthew Wiesner,Kenton Murray,Reno Kriz
発行日 2025-03-26 16:28:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR | MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion はコメントを受け付けていません

Networking Systems for Video Anomaly Detection: A Tutorial and Survey

要約

オンラインビデオアプリケーションの急増と相まって、スマートシティでの監視カメラの利用の増加は、公共セキュリティとプライバシー保護に関する懸念を高め、自動化されたビデオ異常検出(VAD)を人工知能(AI)コミュニティ内の基本的な研究タスクに推進しました。
ディープラーニングとエッジコンピューティングの進歩により、VADは大幅な進歩を遂げ、スマートシティやビデオインターネットの新たなアプリケーションと相乗効果を発揮しました。これは、AI、IOVT、およびコンピューティングフィールドでの交差点探索のための実用的なホットスポットであるALGORITHM ENGINEERINGの従来の研究範囲(NSVAD)に移行しました。
この記事では、NSVADの初心者向けの徹底的なチュートリアルを提供する、さまざまな深い学習駆動型VADルートの基本的な仮定、学習フレームワーク、および適用可能なシナリオを描写します。
さらに、この記事は、最近の進歩と典型的なソリューションをレビューし、https://github.com/fdjingliu/nsvadでアクセスできる利用可能な研究リソースを集約することにより、コアの概念を解明します。
最後に、この記事は将来の開発動向を予測し、AIとコンピューティングテクノロジーの統合が既存の研究の課題に対処し、オープンな機会を促進する方法について説明し、将来の研究者とエンジニアのための洞察に満ちたガイドとして機能します。

要約(オリジナル)

The increasing utilization of surveillance cameras in smart cities, coupled with the surge of online video applications, has heightened concerns regarding public security and privacy protection, which propelled automated Video Anomaly Detection (VAD) into a fundamental research task within the Artificial Intelligence (AI) community. With the advancements in deep learning and edge computing, VAD has made significant progress and advances synergized with emerging applications in smart cities and video internet, which has moved beyond the conventional research scope of algorithm engineering to deployable Networking Systems for VAD (NSVAD), a practical hotspot for intersection exploration in the AI, IoVT, and computing fields. In this article, we delineate the foundational assumptions, learning frameworks, and applicable scenarios of various deep learning-driven VAD routes, offering an exhaustive tutorial for novices in NSVAD. In addition, this article elucidates core concepts by reviewing recent advances and typical solutions and aggregating available research resources accessible at https://github.com/fdjingliu/NSVAD. Lastly, this article projects future development trends and discusses how the integration of AI and computing technologies can address existing research challenges and promote open opportunities, serving as an insightful guide for prospective researchers and engineers.

arxiv情報

著者 Jing Liu,Yang Liu,Jieyu Lin,Jielin Li,Liang Cao,Peng Sun,Bo Hu,Liang Song,Azzedine Boukerche,Victor C. M. Leung
発行日 2025-03-26 16:44:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY | Networking Systems for Video Anomaly Detection: A Tutorial and Survey はコメントを受け付けていません