Enhancing Pothole Detection and Characterization: Integrated Segmentation and Depth Estimation in Road Anomaly Systems

要約

道路の異常検出は、道路のメンテナンスとドライバーと車両の両方の安全性を高める上で重要な役割を果たします。
道路異常検出のための最近の機械学習アプローチは、手動分析と異常カウントの退屈で時間のかかるプロセスを克服しました。
しかし、彼らはしばしば道路のpot穴の完全な特性評価を提供するのに不足しています。
このホワイトペーパーでは、ダッシュボードに取り付けられたカメラからキャプチャされたデジタル画像を使用して、pot穴の自動特性評価のために事前に訓練されたYolov8-SEGモデルを採用することにより、転送学習を活用します。
私たちの仕事には、アルコバル市の多様な道路環境とサウジアラビアのKFUPMキャンパスから収集された、画像とそれらの対応する深度マップの両方で構成される新しいデータセットの作成が含まれます。
私たちのアプローチは、pot穴を正確にローカライズしてその領域を計算するために、ポットホール検出とセグメンテーションを実行します。
その後、セグメント化された画像をその深度マップとマージして、pot穴に関する詳細な深さ情報を抽出します。
セグメンテーションと深度データのこの統合は、以前の深い学習ベースの道路異常検出システムと比較して、より包括的な特性評価を提供します。
全体として、この方法は、道路の危険の検出と特性評価を改善することにより、自動運転車のナビゲーションを大幅に強化する可能性があるだけでなく、道路維持当局が道路の損傷により効果的に対応するのを支援します。

要約(オリジナル)

Road anomaly detection plays a crucial role in road maintenance and in enhancing the safety of both drivers and vehicles. Recent machine learning approaches for road anomaly detection have overcome the tedious and time-consuming process of manual analysis and anomaly counting; however, they often fall short in providing a complete characterization of road potholes. In this paper, we leverage transfer learning by adopting a pre-trained YOLOv8-seg model for the automatic characterization of potholes using digital images captured from a dashboard-mounted camera. Our work includes the creation of a novel dataset, comprising both images and their corresponding depth maps, collected from diverse road environments in Al-Khobar city and the KFUPM campus in Saudi Arabia. Our approach performs pothole detection and segmentation to precisely localize potholes and calculate their area. Subsequently, the segmented image is merged with its depth map to extract detailed depth information about the potholes. This integration of segmentation and depth data offers a more comprehensive characterization compared to previous deep learning-based road anomaly detection systems. Overall, this method not only has the potential to significantly enhance autonomous vehicle navigation by improving the detection and characterization of road hazards but also assists road maintenance authorities in responding more effectively to road damage.

arxiv情報

著者 Uthman Baroudi,Alala BaHamid,Yasser Elalfy,Ziad Al Alami
発行日 2025-04-18 11:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SY, eess.SY | Enhancing Pothole Detection and Characterization: Integrated Segmentation and Depth Estimation in Road Anomaly Systems はコメントを受け付けていません

BRIGHT: A globally distributed multimodal building damage assessment dataset with very-high-resolution for all-weather disaster response

要約

災害イベントは世界中で発生し、人間の生活と財産に大きな損害を与えます。
地球観測(EO)データにより、災害の余波で人間の死傷者を減らし、災害救援活動を通知するための重要な能力である迅速かつ包括的な建築ダメージ評価(BDA)が可能になります。
最近の研究では、主に光学EOデータを使用して、目に見えない災害イベントの正確なマッピングを実現するためのAIモデルの開発に焦点を当てています。
ただし、光学データに基づくソリューションは、晴れた空と昼間の時間に限定されており、災害に対する迅速な対応を防ぎます。
マルチモーダル(MM)EOデータ、特に光学画像とSAR画像の組み合わせを統合することで、すべての天候の昼夜を問わず災害対応を提供することが可能になります。
この可能性にもかかわらず、堅牢なマルチモーダルAIモデルの開発は、適切なベンチマークデータセットの欠如によって制約されています。
このホワイトペーパーでは、AIベースの全天候型災害対応をサポートするために、非常に高解像度の光学およびSAR画像(明るい)を使用してBDAデータセットを提示します。
私たちの知る限り、Brightは、AIベースの災害対応をサポートするために特別にキュレーションされた、最初のオープンアクセス、グローバルに分散されたイベントダイバースMMデータセットです。
世界中の14の地域で5種類の自然災害と2種類の人工災害をカバーしており、外部支援が最も必要な発展途上国に特に焦点を当てています。
0.3〜1メートルの間の空間分解能を備えた明るい光とSARの画像は、個々の建物の詳細な表現を提供し、正確なBDAに最適です。
私たちの実験では、伝達可能性と堅牢性を検証するために、明るく訓練された7つの高度なAIモデルをテストしました。
データセットとコードは、https://github.com/chenhongruixuan/brightで入手できます。
Brightは、2025 IEEE GRSSデータフュージョンコンテストの公式データセットとしても機能します。

要約(オリジナル)

Disaster events occur around the world and cause significant damage to human life and property. Earth observation (EO) data enables rapid and comprehensive building damage assessment (BDA), an essential capability in the aftermath of a disaster to reduce human casualties and to inform disaster relief efforts. Recent research focuses on the development of AI models to achieve accurate mapping of unseen disaster events, mostly using optical EO data. However, solutions based on optical data are limited to clear skies and daylight hours, preventing a prompt response to disasters. Integrating multimodal (MM) EO data, particularly the combination of optical and SAR imagery, makes it possible to provide all-weather, day-and-night disaster responses. Despite this potential, the development of robust multimodal AI models has been constrained by the lack of suitable benchmark datasets. In this paper, we present a BDA dataset using veRy-hIGH-resoluTion optical and SAR imagery (BRIGHT) to support AI-based all-weather disaster response. To the best of our knowledge, BRIGHT is the first open-access, globally distributed, event-diverse MM dataset specifically curated to support AI-based disaster response. It covers five types of natural disasters and two types of man-made disasters across 14 regions worldwide, with a particular focus on developing countries where external assistance is most needed. The optical and SAR imagery in BRIGHT, with a spatial resolution between 0.3-1 meters, provides detailed representations of individual buildings, making it ideal for precise BDA. In our experiments, we have tested seven advanced AI models trained with our BRIGHT to validate the transferability and robustness. The dataset and code are available at https://github.com/ChenHongruixuan/BRIGHT. BRIGHT also serves as the official dataset for the 2025 IEEE GRSS Data Fusion Contest.

arxiv情報

著者 Hongruixuan Chen,Jian Song,Olivier Dietrich,Clifford Broni-Bediako,Weihao Xuan,Junjue Wang,Xinlei Shao,Yimin Wei,Junshi Xia,Cuiling Lan,Konrad Schindler,Naoto Yokoya
発行日 2025-04-18 12:07:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV, eess.SP | BRIGHT: A globally distributed multimodal building damage assessment dataset with very-high-resolution for all-weather disaster response はコメントを受け付けていません

EyecareGPT: Boosting Comprehensive Ophthalmology Understanding with Tailored Dataset, Benchmark and Model

要約

医療大規模な視覚言語モデル(MED-LVLMS)は、ヘルスケアの重要な可能性を示していますが、一般的な医療データと粗視のグローバルな視覚的理解に依存することで、インテリジェントな眼科診断においてそれらが制限されます。
現在、インテリジェントな眼科診断は3つの主要な課題に直面しています:(i)データ。
深く注釈付き、高品質の、マルチモーダル眼科視覚命令データの欠如。
(ii)ベンチマーク。
診断パフォーマンスを評価するための包括的で体系的なベンチマークがないこと。
(iii)モデル。
全体的な視覚的アーキテクチャを細かく粒度固有の眼科病変の識別に適応させることの難しさ。
この論文では、テーラードデータセット、ベンチマーク、モデルを使用して、前述の3つの重要な課題に体系的に取り組むアイケアキットを提案します。まず、現実の眼科データを備えたマルチエージェントデータエンジンを構築して、高品質の嗅覚視覚データであるEyeCare-100Kを生成します。
その後、アイケアベンチを設計します。アイケアベンチは、複数の次元にわたるインテリジェントな眼科診断タスクでのLVLMSの全体的なパフォーマンスを包括的に評価するベンチマークです。
最後に、適応解像度のメカニズムと層ごとの密なコネクタを組み込んだ細い眼科の視覚的理解のために最適化されたEyeCareGPTを開発します。
広範な実験結果は、アイカレグプトがさまざまな眼科タスクで最先端のパフォーマンスを達成し、インテリジェントな眼科診断におけるオープン研究の進歩の重要な可能性を強調していることを示しています。
当社のプロジェクトは、https://github.com/dcdmllm/eyecaregptで入手できます。

要約(オリジナル)

Medical Large Vision-Language Models (Med-LVLMs) demonstrate significant potential in healthcare, but their reliance on general medical data and coarse-grained global visual understanding limits them in intelligent ophthalmic diagnosis. Currently, intelligent ophthalmic diagnosis faces three major challenges: (i) Data. The lack of deeply annotated, high-quality, multi-modal ophthalmic visual instruction data; (ii) Benchmark. The absence of a comprehensive and systematic benchmark for evaluating diagnostic performance; (iii) Model. The difficulty of adapting holistic visual architectures to fine-grained, region-specific ophthalmic lesion identification. In this paper, we propose the Eyecare Kit, which systematically tackles the aforementioned three key challenges with the tailored dataset, benchmark and model: First, we construct a multi-agent data engine with real-life ophthalmology data to produce Eyecare-100K, a high-quality ophthalmic visual instruction dataset. Subsequently, we design Eyecare-Bench, a benchmark that comprehensively evaluates the overall performance of LVLMs on intelligent ophthalmic diagnosis tasks across multiple dimensions. Finally, we develop the EyecareGPT, optimized for fine-grained ophthalmic visual understanding thoroughly, which incorporates an adaptive resolution mechanism and a layer-wise dense connector. Extensive experimental results indicate that the EyecareGPT achieves state-of-the-art performance in a range of ophthalmic tasks, underscoring its significant potential for the advancement of open research in intelligent ophthalmic diagnosis. Our project is available at https://github.com/DCDmllm/EyecareGPT.

arxiv情報

著者 Sijing Li,Tianwei Lin,Lingshuai Lin,Wenqiao Zhang,Jiang Liu,Xiaoda Yang,Juncheng Li,Yucheng He,Xiaohui Song,Jun Xiao,Yueting Zhuang,Beng Chin Ooi
発行日 2025-04-18 12:09:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EyecareGPT: Boosting Comprehensive Ophthalmology Understanding with Tailored Dataset, Benchmark and Model はコメントを受け付けていません

Energy-Latency Attacks via Sponge Poisoning

要約

スポンジの例は、ハードウェアアクセラレータに展開されたディープネットワークのエネルギー消費と予測の遅延を増加させるために最適化されたテスト時間入力です。
分類中に活性化されるニューロンの割合を増やすことで、これらの攻撃はネットワークの活性化パターンのスパース性を減らし、ハードウェアアクセラレータのパフォーマンスを悪化させます。
この作業では、分類の精度に影響を与えることなくテスト入力でニューラルネットワークのエネルギー消費と予測の遅延を悪化させることを目的とした、Sponge Ponisingという名前の新しいトレーニングタイム攻撃を提示します。
この攻撃を舞台にするために、攻撃者はトレーニング中に少数のモデルの更新のみを制御できると想定しています。たとえば、モデルトレーニングが信頼されていないサードパーティにアウトソーシングされたり、連合学習を介して配布されたりする場合のシナリオです。
画像分類タスクに関する広範な実験は、スポンジ中毒が効果的であり、それらを修復するための微調整された毒モデルがほとんどのユーザーに法外なコストをもたらすことを示しており、スポンジ中毒に取り組むことを強調しています。

要約(オリジナル)

Sponge examples are test-time inputs optimized to increase energy consumption and prediction latency of deep networks deployed on hardware accelerators. By increasing the fraction of neurons activated during classification, these attacks reduce sparsity in network activation patterns, worsening the performance of hardware accelerators. In this work, we present a novel training-time attack, named sponge poisoning, which aims to worsen energy consumption and prediction latency of neural networks on any test input without affecting classification accuracy. To stage this attack, we assume that the attacker can control only a few model updates during training — a likely scenario, e.g., when model training is outsourced to an untrusted third party or distributed via federated learning. Our extensive experiments on image classification tasks show that sponge poisoning is effective, and that fine-tuning poisoned models to repair them poses prohibitive costs for most users, highlighting that tackling sponge poisoning remains an open issue.

arxiv情報

著者 Antonio Emanuele Cinà,Ambra Demontis,Battista Biggio,Fabio Roli,Marcello Pelillo
発行日 2025-04-18 12:28:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG | Energy-Latency Attacks via Sponge Poisoning はコメントを受け付けていません

Robust image classification with multi-modal large language models

要約

深いニューラルネットワークは、敵対的な例に対して脆弱です。つまり、モデルに自信を持って誤った予測を行うことができる慎重に作成された入力サンプルがあります。
これらの脆弱性を緩和するために、事前にモデルを強化するために、敵対的な訓練と検出に基づく防御が提案されています。
ただし、これらのアプローチのほとんどは、視覚パターンと入力のテキストの説明との関係を見落とす単一のデータモダリティに焦点を当てています。
この論文では、これらの防御をマルチモーダル情報と組み合わせて補完し、堅牢性をさらに高めるように設計された新しい防御を提案します。
MultiShieldは、マルチモーダルの大手言語モデルを活用して、敵対的な例を検出し、入力のテキスト表現と視覚表現の間に整合性がない場合に不確実な分類を控えます。
CIFAR-10およびImagenet Datasetの広範な評価は、堅牢で非堅牢な画像分類モデルを使用して、MultiShieldを簡単に統合して敵対的な例を検出および拒否し、元の防御を上回ることができることを示しています。

要約(オリジナル)

Deep Neural Networks are vulnerable to adversarial examples, i.e., carefully crafted input samples that can cause models to make incorrect predictions with high confidence. To mitigate these vulnerabilities, adversarial training and detection-based defenses have been proposed to strengthen models in advance. However, most of these approaches focus on a single data modality, overlooking the relationships between visual patterns and textual descriptions of the input. In this paper, we propose a novel defense, MultiShield, designed to combine and complement these defenses with multi-modal information to further enhance their robustness. MultiShield leverages multi-modal large language models to detect adversarial examples and abstain from uncertain classifications when there is no alignment between textual and visual representations of the input. Extensive evaluations on CIFAR-10 and ImageNet datasets, using robust and non-robust image classification models, demonstrate that MultiShield can be easily integrated to detect and reject adversarial examples, outperforming the original defenses.

arxiv情報

著者 Francesco Villani,Igor Maljkovic,Dario Lazzaro,Angelo Sotgiu,Antonio Emanuele Cinà,Fabio Roli
発行日 2025-04-18 13:02:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG | Robust image classification with multi-modal large language models はコメントを受け付けていません

An OpenMind for 3D medical vision self-supervised learning

要約

3D医療画像の自己教師学習(SSL)の分野には、一貫性と標準化がありません。
多くの方法が開発されていますが、i)さまざまな事前トレーニングデータセット、ii)さまざまなアーキテクチャ、およびiii)異なる下流のデータセットで評価されるため、現在の最先端を特定することは不可能です。
この論文では、この分野に明確さをもたらし、3つの重要な貢献を通じてさらなる方法の進歩の基盤を築きます。114K3D脳MRIボリュームで構成される最大の公開されているプリトレーニングデータセットを公開し、すべての実務家が大規模なデータセットで事前トレーニングを行うことを可能にします。
b)最先端のCNNおよびトランスアーキテクチャのために、このデータセットに既存の3D自己監視学習方法をベンチマークし、3D SSLプリトレーニングの状態を明確にします。
多くの調査結果の中で、事前に訓練された方法が、Scratchからの強いNnu-Net Resenc-Lベースラインを超える可能性があることを示しています。
最後に、c)トレーニング前および微調整のフレームワークのコードを公開し、ベンチマークプロセス中に作成された事前に訓練されたモデルを提供して、迅速な採用と繁殖を促進します。

要約(オリジナル)

The field of self-supervised learning (SSL) for 3D medical images lacks consistency and standardization. While many methods have been developed, it is impossible to identify the current state-of-the-art, due to i) varying and small pretraining datasets, ii) varying architectures, and iii) being evaluated on differing downstream datasets. In this paper, we bring clarity to this field and lay the foundation for further method advancements through three key contributions: We a) publish the largest publicly available pre-training dataset comprising 114k 3D brain MRI volumes, enabling all practitioners to pre-train on a large-scale dataset. We b) benchmark existing 3D self-supervised learning methods on this dataset for a state-of-the-art CNN and Transformer architecture, clarifying the state of 3D SSL pre-training. Among many findings, we show that pre-trained methods can exceed a strong from-scratch nnU-Net ResEnc-L baseline. Lastly, we c) publish the code of our pre-training and fine-tuning frameworks and provide the pre-trained models created during the benchmarking process to facilitate rapid adoption and reproduction.

arxiv情報

著者 Tassilo Wald,Constantin Ulrich,Jonathan Suprijadi,Sebastian Ziegler,Michal Nohel,Robin Peretzke,Gregor Köhler,Klaus H. Maier-Hein
発行日 2025-04-18 13:14:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | An OpenMind for 3D medical vision self-supervised learning はコメントを受け付けていません

MambaMIM: Pre-training Mamba with State Space Token Interpolation and its Application to Medical Image Segmentation

要約

最近、州の宇宙モデルMAMBAは、特に3D医療イメージングにおける長シーケンスの視覚タスクに対処するために、効率的な長いシーケンスモデリング機能を実証しています。
ただし、既存の生成的自己監視学習方法では、マスクモデリングにおける状態空間シーケンスの固有の因果特性を見落としているため、長距離依存関係を処理するMambaの可能性はまだ完全には解明されていません。
この課題に対処するために、Mambamimと呼ばれる汎用の事前トレーニングフレームワークを提案します。これは、マスクされたシーケンス内の状態空間の因果関係を学習する選択的構造状態空間シーケンスの新しいトークン挿入戦略(TOKI)に基づいたマスクされた画像モデリング方法です。
さらに、Mambamimは、さまざまなアーキテクチャ全体でマスキングの一貫性を維持するためのボトムアップ3Dハイブリッドマスキング戦略を導入し、単一またはハイブリッドのMambaアーキテクチャで使用して、マルチスケールおよび長距離表現機能を強化することができます。
6.8k CTスキャンの大規模なデータセットでマンバミムを事前に訓練し、8つの公共の医療セグメンテーションベンチマークでそのパフォーマンスを評価します。
広範な下流の実験により、医療イメージの事前トレーニングにMambaを使用することの実現可能性と進歩が明らかになりました。
特に、MedNextとVision Mambaをハイブリダイズするカスタマイズされたアーキテクチャにマンバミムを適用すると、最先端のセグメンテーションパフォーマンスを一貫して取得します。
このコードは、https://github.com/fenghetan9/mambamimで入手できます。

要約(オリジナル)

Recently, the state space model Mamba has demonstrated efficient long-sequence modeling capabilities, particularly for addressing long-sequence visual tasks in 3D medical imaging. However, existing generative self-supervised learning methods have not yet fully unleashed Mamba’s potential for handling long-range dependencies because they overlook the inherent causal properties of state space sequences in masked modeling. To address this challenge, we propose a general-purpose pre-training framework called MambaMIM, a masked image modeling method based on a novel TOKen-Interpolation strategy (TOKI) for the selective structure state space sequence, which learns causal relationships of state space within the masked sequence. Further, MambaMIM introduces a bottom-up 3D hybrid masking strategy to maintain a masking consistency across different architectures and can be used on any single or hybrid Mamba architecture to enhance its multi-scale and long-range representation capability. We pre-train MambaMIM on a large-scale dataset of 6.8K CT scans and evaluate its performance across eight public medical segmentation benchmarks. Extensive downstream experiments reveal the feasibility and advancement of using Mamba for medical image pre-training. In particular, when we apply the MambaMIM to a customized architecture that hybridizes MedNeXt and Vision Mamba, we consistently obtain the state-of-the-art segmentation performance. The code is available at: https://github.com/FengheTan9/MambaMIM.

arxiv情報

著者 Fenghe Tang,Bingkun Nian,Yingtai Li,Zihang Jiang,Jie Yang,Wei Liu,S. Kevin Zhou
発行日 2025-04-18 13:21:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MambaMIM: Pre-training Mamba with State Space Token Interpolation and its Application to Medical Image Segmentation はコメントを受け付けていません

AnyTSR: Any-Scale Thermal Super-Resolution for UAV

要約

熱イメージングは​​、挑戦的な環境でのインテリジェントな無人航空機(UAV)の適用を大幅に強化できます。
ただし、熱センサーの固有の低解像度は、詳細が不十分でぼやけた境界につながります。
スーパー解像度(SR)は、この問題に対処するための有望なソリューションを提供しますが、ほとんどの既存のSRメソッドは固定規模のSR用に設計されています。
それらは、実際のアプリケーションでは計算上高価で柔軟性がありません。
上記の問題に対処するために、この作業は、単一のモデル内のUAVの新しいスケールサーマルSRメソッド(ANYTSR)を提案します。
具体的には、より正確で柔軟な表現を有効にするために、特定の機能コードを明示的に割り当てるために、新しい画像エンコーダーが提案されています。
さらに、座標オフセット情報をローカル機能アンサンブルに効果的に埋め込むことにより、空間的関係をよりよく理解し、アーティファクトを減らすために、革新的な任意のスケールのアップサンプラーが提案されています。
さらに、土地と水の両方のシーンをカバーする新しいデータセット(UAV-TSR)が、熱SRタスク用に構築されています。
実験結果は、提案された方法がすべてのスケーリング因子で一貫して最先端の方法を上回り、より正確で詳細な高解像度画像を生成することを示しています。
コードはhttps://github.com/vision4robotics/anytsrにあります。

要約(オリジナル)

Thermal imaging can greatly enhance the application of intelligent unmanned aerial vehicles (UAV) in challenging environments. However, the inherent low resolution of thermal sensors leads to insufficient details and blurred boundaries. Super-resolution (SR) offers a promising solution to address this issue, while most existing SR methods are designed for fixed-scale SR. They are computationally expensive and inflexible in practical applications. To address above issues, this work proposes a novel any-scale thermal SR method (AnyTSR) for UAV within a single model. Specifically, a new image encoder is proposed to explicitly assign specific feature code to enable more accurate and flexible representation. Additionally, by effectively embedding coordinate offset information into the local feature ensemble, an innovative any-scale upsampler is proposed to better understand spatial relationships and reduce artifacts. Moreover, a novel dataset (UAV-TSR), covering both land and water scenes, is constructed for thermal SR tasks. Experimental results demonstrate that the proposed method consistently outperforms state-of-the-art methods across all scaling factors as well as generates more accurate and detailed high-resolution images. The code is located at https://github.com/vision4robotics/AnyTSR.

arxiv情報

著者 Mengyuan Li,Changhong Fu,Ziyu Lu,Zijie Zhang,Haobo Zuo,Liangliang Yao
発行日 2025-04-18 13:23:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | AnyTSR: Any-Scale Thermal Super-Resolution for UAV はコメントを受け付けていません

Analysing the Robustness of Vision-Language-Models to Common Corruptions

要約

Vision-Language Models(VLMS)は、視覚的およびテキストコンテンツについて理解と推論において印象的な能力を実証しています。
ただし、一般的なイメージの腐敗に対する堅牢性は未調査のままです。
この作業では、Imagenet-Cベンチマークからの19の腐敗タイプにわたるVLM堅牢性の最初の包括的な分析を紹介します。
腐敗がそれぞれシーンのテキストの理解とオブジェクトベースの推論にどのように影響するかを体系的に評価するために、TextVQA-CとGQA-Cの2つの新しいベンチマークを導入します。
私たちの分析では、変圧器ベースのVLMがタスク全体で明確な脆弱性パターンを示すことが明らかになりました。テキスト認識はぼやけや雪の腐敗の下で最も著しく悪化しますが、オブジェクトの推論は、霜や衝動騒音などの腐敗に対する感度が高いことを示しています。
これらの観察結果をさまざまな腐敗の周波数ドメイン特性に接続し、低周波処理に対する変圧器の固有のバイアスが、それらの違いの堅牢性パターンをどのように説明するかを明らかにします。
私たちの調査結果は、実際のアプリケーション向けに、より多くの腐敗と頑丈なビジョン言語モデルを開発するための貴重な洞察を提供します。

要約(オリジナル)

Vision-language models (VLMs) have demonstrated impressive capabilities in understanding and reasoning about visual and textual content. However, their robustness to common image corruptions remains under-explored. In this work, we present the first comprehensive analysis of VLM robustness across 19 corruption types from the ImageNet-C benchmark, spanning four categories: noise, blur, weather, and digital distortions. We introduce two new benchmarks, TextVQA-C and GQA-C, to systematically evaluate how corruptions affect scene text understanding and object-based reasoning, respectively. Our analysis reveals that transformer-based VLMs exhibit distinct vulnerability patterns across tasks: text recognition deteriorates most severely under blur and snow corruptions, while object reasoning shows higher sensitivity to corruptions such as frost and impulse noise. We connect these observations to the frequency-domain characteristics of different corruptions, revealing how transformers’ inherent bias toward low-frequency processing explains their differential robustness patterns. Our findings provide valuable insights for developing more corruption-robust vision-language models for real-world applications.

arxiv情報

著者 Muhammad Usama,Syeda Aisha Asim,Syed Bilal Ali,Syed Talal Wasim,Umair Bin Mansoor
発行日 2025-04-18 13:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Analysing the Robustness of Vision-Language-Models to Common Corruptions はコメントを受け付けていません

Zebrafish Counting Using Event Stream Data

要約

ゼブラフィッシュは、人間の遺伝子と高度な相同性を共有しており、生物医学研究のモデル生物として一般的に使用されています。
医療研究所の場合、ゼブラフィッシュを数えることは毎日の仕事です。
ゼブラフィッシュのサイズが小さいため、手動で視覚的なカウントが困難です。
既存のカウント方法は、小さな魚には適用されないか、制限が多すぎます。
この論文は、イベントストリームデータに基づいてゼブラフィッシュカウントアルゴリズムを提案しました。
まず、イベントカメラがデータ収集に適用されます。
第二に、カメラのキャリブレーションと画像融合は連続して事前に形成されました。
次に、軌跡情報を使用して、カウントの精度を向上させました。
最後に、カウント結果は期間の経験的に平均化され、最終結果を得るために切り上げられました。
アルゴリズムの精度を評価するために、20のゼブラフィッシュを4リットルの繁殖タンクに入れました。
100回のカウント試験の中で、平均精度は97.95%に達しました。
従来のアルゴリズムと比較して、提案されたアルゴリズムはより単純な実装を提供し、より高い精度を達成します。

要約(オリジナル)

Zebrafish share a high degree of homology with human genes and are commonly used as model organism in biomedical research. For medical laboratories, counting zebrafish is a daily task. Due to the tiny size of zebrafish, manual visual counting is challenging. Existing counting methods are either not applicable to small fishes or have too many limitations. The paper proposed a zebrafish counting algorithm based on the event stream data. Firstly, an event camera is applied for data acquisition. Secondly, camera calibration and image fusion were preformed successively. Then, the trajectory information was used to improve the counting accuracy. Finally, the counting results were averaged over an empirical of period and rounded up to get the final results. To evaluate the accuracy of the algorithm, 20 zebrafish were put in a four-liter breeding tank. Among 100 counting trials, the average accuracy reached 97.95%. As compared with traditional algorithms, the proposed one offers a simpler implementation and achieves higher accuracy.

arxiv情報

著者 Qianghua Chen,Huiyu Wang,Li Ming,Ying Zhao
発行日 2025-04-18 13:51:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Zebrafish Counting Using Event Stream Data はコメントを受け付けていません