DenSe-AdViT: A novel Vision Transformer for Dense SAR Object Detection

要約

視覚変圧器(VIT)は、グローバルな特徴を抽出する特別な能力により、合成開口レーダー(SAR)画像のオブジェクト検出で顕著な結果を達成しました。
ただし、マルチスケールのローカル機能の抽出に苦労しているため、特に密集している場合は、小さなターゲットの検出において性能が限られています。
したがって、密度の高いSARターゲット検出のための適応トークン(密度の高いアドビット)を備えた密度感受性視力変圧器を提案します。
標的分布に基づいて密度テンソルを生成する予備コンポーネントとして密度認識モジュール(DAM)を設計します。
それは、細心の注意を払って作成された客観的なメトリックによって導かれ、オブジェクトの空間分布と密度を正確かつ効果的にキャプチャできるようにします。
畳み込みニューラルネットワーク(CNNS)によって強化されたマルチスケール情報を変圧器から派生したグローバルな特徴を統合するために、密度強化融合モジュール(DEFM)が提案されています。
密度マスクのアシストと複数のソース機能を使用して、ターゲットサラバイバル領域への注意を効果的に洗練します。
特に、当社の密集したアドビットは、RSDDデータセットで79.8%のマップ、サイドデータセットで92.5%を達成します。

要約(オリジナル)

Vision Transformer (ViT) has achieved remarkable results in object detection for synthetic aperture radar (SAR) images, owing to its exceptional ability to extract global features. However, it struggles with the extraction of multi-scale local features, leading to limited performance in detecting small targets, especially when they are densely arranged. Therefore, we propose Density-Sensitive Vision Transformer with Adaptive Tokens (DenSe-AdViT) for dense SAR target detection. We design a Density-Aware Module (DAM) as a preliminary component that generates a density tensor based on target distribution. It is guided by a meticulously crafted objective metric, enabling precise and effective capture of the spatial distribution and density of objects. To integrate the multi-scale information enhanced by convolutional neural networks (CNNs) with the global features derived from the Transformer, Density-Enhanced Fusion Module (DEFM) is proposed. It effectively refines attention toward target-survival regions with the assist of density mask and the multiple sources features. Notably, our DenSe-AdViT achieves 79.8% mAP on the RSDD dataset and 92.5% on the SIVED dataset, both of which feature a large number of densely distributed vehicle targets.

arxiv情報

著者 Yang Zhang,Jingyi Cao,Yanan You,Yuanyuan Qiao
発行日 2025-04-18 11:25:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

AnomalyControl: Learning Cross-modal Semantic Features for Controllable Anomaly Synthesis

要約

異常合成は、異常検査を進めるための異常なデータを増強するための重要なアプローチです。
大規模なトレーニング前の知識に基づいて、既存のテキストからイメージまでの異常な合成方法は、主にテキスト情報または粗整列された視覚的特徴に焦点を当てて、世代全体を導きます。
ただし、これらの方法は、生成プロセスのリアリズムと一般化を制限する、現実的な異常の複雑な特性(例えば、細粒の視覚パターンの異常の視覚パターンなど)をキャプチャするのに十分な記述子を欠いていることがよくあります。
この目的のために、アノマリコントロールと呼ばれる新しい異常合成フレームワークを提案し、ガイダンスシグナルとしてクロスモーダルセマンティックの特徴を学習します。これは、テキストイメージの参照プロンプトから一般化された異常なキューをコードし、合成された異常なサンプルのリアリズムを改善することができます。
具体的には、Anomalycontrolは、クロスモーダルセマンティックモデリング(CSM)モジュールがテキストおよび視覚記述子からクロスモーダルセマンティック機能を抽出するように設計されている柔軟で一致しないプロンプトペア(つまり、テキストイメージリファレンスプロンプトとターゲットテキストプロンプト)を採用します。
次に、CSMが異常の特定の視覚パターンに焦点を合わせることができるように、異常に心次の強化された注意(ASEA)メカニズムが定式化され、生成された異常の特徴のリアリズムと文脈的関連性が向上します。
クロスモーダルのセマンティック機能を以前のように処理するセマンティックガイド付きアダプター(SGA)は、適切で制御可能な合成プロセスの効果的なガイダンス信号をエンコードするように設計されています。
広範な実験は、アノマリコントロールが、下流タスクの優れた性能を示しながら、既存の方法と比較して、異常な合成で最先端の結果を達成できることを示しています。

要約(オリジナル)

Anomaly synthesis is a crucial approach to augment abnormal data for advancing anomaly inspection. Based on the knowledge from the large-scale pre-training, existing text-to-image anomaly synthesis methods predominantly focus on textual information or coarse-aligned visual features to guide the entire generation process. However, these methods often lack sufficient descriptors to capture the complicated characteristics of realistic anomalies (e.g., the fine-grained visual pattern of anomalies), limiting the realism and generalization of the generation process. To this end, we propose a novel anomaly synthesis framework called AnomalyControl to learn cross-modal semantic features as guidance signals, which could encode the generalized anomaly cues from text-image reference prompts and improve the realism of synthesized abnormal samples. Specifically, AnomalyControl adopts a flexible and non-matching prompt pair (i.e., a text-image reference prompt and a targeted text prompt), where a Cross-modal Semantic Modeling (CSM) module is designed to extract cross-modal semantic features from the textual and visual descriptors. Then, an Anomaly-Semantic Enhanced Attention (ASEA) mechanism is formulated to allow CSM to focus on the specific visual patterns of the anomaly, thus enhancing the realism and contextual relevance of the generated anomaly features. Treating cross-modal semantic features as the prior, a Semantic Guided Adapter (SGA) is designed to encode effective guidance signals for the adequate and controllable synthesis process. Extensive experiments indicate that AnomalyControl can achieve state-of-the-art results in anomaly synthesis compared with existing methods while exhibiting superior performance for downstream tasks.

arxiv情報

著者 Shidan He,Lei Liu,Xiujun Shu,Bo Wang,Yuanhao Feng,Shen Zhao
発行日 2025-04-18 11:28:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする

The Mirage of Performance Gains: Why Contrastive Decoding Fails to Address Multimodal Hallucination

要約

対照的なデコード戦略は、マルチモーダルの大手言語モデル(MLLM)の幻覚を減らすために広く使用されています。
これらの方法は、幻覚を誘発するために対照的なサンプルを構築し、出力分布でそれらを抑制することにより機能します。
しかし、この論文は、そのようなアプローチが幻覚の問題を効果的に軽減できないことを示しています。
教皇ベンチマークで観察されるパフォーマンスの改善は、主に2つの誤解を招く要因によって駆動されます。(1)モデルの出力分布に対する粗い一方的な調整と(2)サンプリング戦略を貪欲な検索に削減する適応的妥当性の制約。
これらの問題をさらに説明するために、一連の偽の改善方法を紹介し、コントラストのデコード技術に対するパフォーマンスを評価します。
実験結果は、対照的なデコードで観察されたパフォーマンスの向上は、幻覚を緩和するという意図した目標とはまったく関係がないことを明らかにしています。
私たちの調査結果は、対照的な解読戦略の有効性に関する一般的な仮定に挑戦し、MLLMSの幻覚に対する真に効果的なソリューションを開発する方法を繰り返します。

要約(オリジナル)

Contrastive decoding strategies are widely used to reduce hallucinations in multimodal large language models (MLLMs). These methods work by constructing contrastive samples to induce hallucinations and then suppressing them in the output distribution. However, this paper demonstrates that such approaches fail to effectively mitigate the hallucination problem. The performance improvements observed on POPE Benchmark are largely driven by two misleading factors: (1) crude, unidirectional adjustments to the model’s output distribution and (2) the adaptive plausibility constraint, which reduces the sampling strategy to greedy search. To further illustrate these issues, we introduce a series of spurious improvement methods and evaluate their performance against contrastive decoding techniques. Experimental results reveal that the observed performance gains in contrastive decoding are entirely unrelated to its intended goal of mitigating hallucinations. Our findings challenge common assumptions about the effectiveness of contrastive decoding strategies and pave the way for developing genuinely effective solutions to hallucinations in MLLMs.

arxiv情報

著者 Hao Yin,Guangzong Si,Zilei Wang
発行日 2025-04-18 11:30:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする

IReNe: Instant Recoloring of Neural Radiance Fields

要約

NERFの進歩により、3Dシーンの再構築と新しいビューの合成が可能になりました。
しかし、フォトリアリズムを保持しながらこれらの表現を効率的に編集することは、新たな課題です。
最近の方法は、3つの主要な制限に直面しています。それらは、インタラクティブな使用が遅く、オブジェクトの境界に精度が欠けており、マルチビューの一貫性を確保するのに苦労しています。
これらの制限に対処するためにアイリーンを紹介し、NERFでの迅速でリアルタイムの色の編集を可能にします。
事前に訓練されたNERFモデルとユーザーが適用されたカラー編集を使用した単一のトレーニング画像を活用して、Ireneは秒単位でネットワークパラメーターを迅速に調整します。
この調整により、モデルは新しいシーンビューを生成でき、トレーニング画像からの色の変化を正確に表し、オブジェクトの境界とビュー固有の効果も制御します。
オブジェクトの境界制御は、トレーニング可能なセグメンテーションモジュールをモデルに統合することにより実現されます。
このプロセスは、最後のネットワークレイヤーの重みのみを再調整することにより、効率を向上させます。
この層のニューロンは、ビュー依存の外観の原因となるニューロンとびまん性の外観に寄与するものに分類できることが観察されました。
自動分類アプローチを導入して、これらのニューロンタイプを識別し、拡散ニューロンの重みを独占的に微調整します。
これにより、トレーニングがさらに加速し、さまざまなビューで一貫したカラー編集が保証されます。
編集されたオブジェクトの色を備えた新しいデータセットの徹底的な検証は、競合他社よりも重要な定量的および定性的進歩を示し、速度を5倍から500倍まで加速します。

要約(オリジナル)

Advances in NERFs have allowed for 3D scene reconstructions and novel view synthesis. Yet, efficiently editing these representations while retaining photorealism is an emerging challenge. Recent methods face three primary limitations: they’re slow for interactive use, lack precision at object boundaries, and struggle to ensure multi-view consistency. We introduce IReNe to address these limitations, enabling swift, near real-time color editing in NeRF. Leveraging a pre-trained NeRF model and a single training image with user-applied color edits, IReNe swiftly adjusts network parameters in seconds. This adjustment allows the model to generate new scene views, accurately representing the color changes from the training image while also controlling object boundaries and view-specific effects. Object boundary control is achieved by integrating a trainable segmentation module into the model. The process gains efficiency by retraining only the weights of the last network layer. We observed that neurons in this layer can be classified into those responsible for view-dependent appearance and those contributing to diffuse appearance. We introduce an automated classification approach to identify these neuron types and exclusively fine-tune the weights of the diffuse neurons. This further accelerates training and ensures consistent color edits across different views. A thorough validation on a new dataset, with edited object colors, shows significant quantitative and qualitative advancements over competitors, accelerating speeds by 5x to 500x.

arxiv情報

著者 Alessio Mazzucchelli,Adrian Garcia-Garcia,Elena Garces,Fernando Rivas-Manzaneque,Francesc Moreno-Noguer,Adrian Penate-Sanchez
発行日 2025-04-18 11:39:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

LeOCLR: Leveraging Original Images for Contrastive Learning of Visual Representations

要約

対照的なインスタンス識別方法は、画像分類やオブ​​ジェクト検出などの下流タスクで監視された学習を上回ります。
ただし、これらの方法は、表現学習中のデータ増強に大きく依存しており、慎重に実装されないと最適でない結果につながる可能性があります。
対照的な学習における一般的な増強技術は、ランダムなトリミングとそれに続くサイズ変更です。
これにより、2つのランダム作物に異なるセマンティックコンテンツが含まれている場合、表現学習の質を低下させることができます。
この問題に取り組むために、新しいインスタンス識別アプローチと適応された損失関数を採用するフレームワークであるLeoCLR(視覚表現の対照的な学習のために元の画像を活用)を紹介します。
この方法は、表現学習中に異なるオブジェクトパーツをマッピングすることによって引き起こされる重要なセマンティック機能の喪失を防ぎます。
私たちの実験は、LeoCLRがさまざまなデータセット全体で表現学習を一貫して改善し、ベースラインモデルを上回ることを示しています。
たとえば、Leoclrは、線形評価でImagenet-1KでMoco-V2を5.1%上回り、転送学習およびオブジェクト検出タスクで他のいくつかの方法を上回ります。

要約(オリジナル)

Contrastive instance discrimination methods outperform supervised learning in downstream tasks such as image classification and object detection. However, these methods rely heavily on data augmentation during representation learning, which can lead to suboptimal results if not implemented carefully. A common augmentation technique in contrastive learning is random cropping followed by resizing. This can degrade the quality of representation learning when the two random crops contain distinct semantic content. To tackle this issue, we introduce LeOCLR (Leveraging Original Images for Contrastive Learning of Visual Representations), a framework that employs a novel instance discrimination approach and an adapted loss function. This method prevents the loss of important semantic features caused by mapping different object parts during representation learning. Our experiments demonstrate that LeOCLR consistently improves representation learning across various datasets, outperforming baseline models. For instance, LeOCLR surpasses MoCo-v2 by 5.1% on ImageNet-1K in linear evaluation and outperforms several other methods on transfer learning and object detection tasks.

arxiv情報

著者 Mohammad Alkhalefi,Georgios Leontidis,Mingjun Zhong
発行日 2025-04-18 11:46:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

DialogGen: Multi-modal Interactive Dialogue System for Multi-turn Text-to-Image Generation

要約

テキストからイメージ(T2I)生成モデルは、近年大幅に進歩しています。
ただし、これらのモデルとの効果的な相互作用は、専門化された迅速なエンジニアリング知識の必要性と多ターン画像生成を実行できないため、平均的なユーザーにとって困難です。
最近の試みでは、ユーザーの自然言語の指示を実現するために、マルチモーダルの大手言語モデル(MLLMS)をT2Iモデルに装備しようとしました。
したがって、MLLMSの出力モダリティが拡張され、MLLMSの強力なマルチモーダル理解能力のおかげで、T2Iモデルのマルチターン生成品質が強化されます。
ただし、これらの作品の多くは、出力モダリティの数が増加し、会話がより深くなるにつれて、正しい出力モダリティを特定し、それに応じてコヒーレント画像を生成する際の課題に直面しています。
したがって、既製のMLLMSとT2Iモデルを整列させる効果的なパイプラインであるDialogenを提案し、マルチターンテキストからイメージの生成のためのマルチモーダルインタラクティブダイアログシステム(MIDS)を構築します。
これは、迅速なアライメント、慎重なトレーニングデータのキュレーション、およびエラー修正の描画で構成されています。
さらに、中間のフィールドが繁栄するにつれて、出力モダリティの正確性とマルチモーダル出力コヒーレンスの観点からMIDSを公正に評価するために、包括的なベンチマークが緊急に必要です。
この問題に対処するために、MLLMSが画像編集をサポートする正確でコヒーレントなマルチモーダルコンテンツを生成する能力を評価するために設計された包括的なバイリンガルベンチマークであるマルチモーダルダイアログベンチマーク(Dialogben)を紹介します。
モダリティを切り替えるモデルの能力と出力画像の一貫性を測定するための2つの評価メトリックが含まれています。
ダイアログベンとユーザー調査に関する当社の広範な実験は、他の最先端のモデルと比較して対話者の有効性を示しています。

要約(オリジナル)

Text-to-image (T2I) generation models have significantly advanced in recent years. However, effective interaction with these models is challenging for average users due to the need for specialized prompt engineering knowledge and the inability to perform multi-turn image generation, hindering a dynamic and iterative creation process. Recent attempts have tried to equip Multi-modal Large Language Models (MLLMs) with T2I models to bring the user’s natural language instructions into reality. Hence, the output modality of MLLMs is extended, and the multi-turn generation quality of T2I models is enhanced thanks to the strong multi-modal comprehension ability of MLLMs. However, many of these works face challenges in identifying correct output modalities and generating coherent images accordingly as the number of output modalities increases and the conversations go deeper. Therefore, we propose DialogGen, an effective pipeline to align off-the-shelf MLLMs and T2I models to build a Multi-modal Interactive Dialogue System (MIDS) for multi-turn Text-to-Image generation. It is composed of drawing prompt alignment, careful training data curation, and error correction. Moreover, as the field of MIDS flourishes, comprehensive benchmarks are urgently needed to evaluate MIDS fairly in terms of output modality correctness and multi-modal output coherence. To address this issue, we introduce the Multi-modal Dialogue Benchmark (DialogBen), a comprehensive bilingual benchmark designed to assess the ability of MLLMs to generate accurate and coherent multi-modal content that supports image editing. It contains two evaluation metrics to measure the model’s ability to switch modalities and the coherence of the output images. Our extensive experiments on DialogBen and user study demonstrate the effectiveness of DialogGen compared with other State-of-the-Art models.

arxiv情報

著者 Minbin Huang,Yanxin Long,Xinchi Deng,Ruihang Chu,Jiangfeng Xiong,Xiaodan Liang,Hong Cheng,Qinglin Lu,Wei Liu
発行日 2025-04-18 11:51:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Efficient Parameter Adaptation for Multi-Modal Medical Image Segmentation and Prognosis

要約

がんの検出と予後は、医療イメージング、特にCTとPETスキャンに大きく依存しています。
ディープニューラルネットワーク(DNNS)は、これらのモダリティから情報を融合することにより、腫瘍のセグメンテーションに有望を示しています。
ただし、重要なボトルネックが存在します。トレーニングと推論のためにCT-PETデータへの依存度は、PETスキャンの利用可能性が限られているために課題を提起します。
したがって、広く利用可能なCTスキャンでトレーニングできる柔軟で効率的なフレームワークが明確に必要であり、PETスキャンが利用可能になったときにまだ適応できます。
この作業では、PETスキャンが利用可能になったときに使用するために効率的に適応できるように、CTスキャンでのみ訓練されたトランスベースのセグメンテーションモデルの軽量アップグレードのためのパラメーター効率の高いマルチモーダル適応(PEMMA)フレームワークを提案します。
このフレームワークは、同じ効率的なクロスモーダル微調整アプローチを維持する予後タスクを実行するためにさらに拡張されています。
提案されたアプローチは、2つのよく知られている分離バックボーン、つまりUNETRとSWIN UNETRでテストされています。
私たちのアプローチは、2つの主な利点を提供します。
第一に、トランスアーキテクチャの固有のモジュール性を活用し、低ランク適応(LORA)と、パラメーター効率の高い適応を実現するために注意重みの低ランク適応(DORA)を分解する(DORA)を実行します。
第二に、クロスモーダルエンタングルメントを最小限に抑えることにより、Pemmaは、他の壊滅的な忘却を引き起こすことなく、1つのモダリティのみを使用して更新を許可します。
私たちの方法は、早期の融合に匹敵するパフォーマンスを達成しますが、トレーニング可能なパラメーターの8%のみで、単一のモダリティでトレーニングされた場合、PETスキャンで大幅な +28%のDICEスコアの改善を示します。
さらに、予後において、私たちの方法は、CTプレーンモデルをPETスキャンを含めるために適応するときに一致指数を +10%改善し、PETデータとEHRデータの両方に適応するときに +23%を改善します。

要約(オリジナル)

Cancer detection and prognosis relies heavily on medical imaging, particularly CT and PET scans. Deep Neural Networks (DNNs) have shown promise in tumor segmentation by fusing information from these modalities. However, a critical bottleneck exists: the dependency on CT-PET data concurrently for training and inference, posing a challenge due to the limited availability of PET scans. Hence, there is a clear need for a flexible and efficient framework that can be trained with the widely available CT scans and can be still adapted for PET scans when they become available. In this work, we propose a parameter-efficient multi-modal adaptation (PEMMA) framework for lightweight upgrading of a transformer-based segmentation model trained only on CT scans such that it can be efficiently adapted for use with PET scans when they become available. This framework is further extended to perform prognosis task maintaining the same efficient cross-modal fine-tuning approach. The proposed approach is tested with two well-known segementation backbones, namely UNETR and Swin UNETR. Our approach offers two main advantages. Firstly, we leverage the inherent modularity of the transformer architecture and perform low-rank adaptation (LoRA) as well as decomposed low-rank adaptation (DoRA) of the attention weights to achieve parameter-efficient adaptation. Secondly, by minimizing cross-modal entanglement, PEMMA allows updates using only one modality without causing catastrophic forgetting in the other. Our method achieves comparable performance to early fusion, but with only 8% of the trainable parameters, and demonstrates a significant +28% Dice score improvement on PET scans when trained with a single modality. Furthermore, in prognosis, our method improves the concordance index by +10% when adapting a CT-pretrained model to include PET scans, and by +23% when adapting for both PET and EHR data.

arxiv情報

著者 Numan Saeed,Shahad Hardan,Muhammad Ridzuan,Nada Saadi,Karthik Nandakumar,Mohammad Yaqub
発行日 2025-04-18 11:52:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

Lightweight LiDAR-Camera 3D Dynamic Object Detection and Multi-Class Trajectory Prediction

要約

多くの場合、サービスモバイルロボットは、タスクを実行しながら動的なオブジェクトを避けるために必要ですが、通常、計算リソースは限られています。
そのため、3Dオブジェクトの検出と軌道予測のための軽量のマルチモーダルフレームワークを提示します。
私たちのシステムは、3Dスペースの歩行者、車両、ライダーのリアルタイム認識を実現するために、Lidarとカメラの入力を相乗的に統合します。
フレームワークは、2つの新しいモジュールを提案します。1)高精度と許容量の計算量を備えたオブジェクト検出のためのクロスモーダル変形トランス(CMDT)、および2)柔軟な隔離長さのマルチクラスオブジェクトの効率的かつ多様な軌道予測のための参照軌跡ベースのマルチクラストランス(RTMCT)。
CODAベンチマークの評価は、検出全体(MAPで+2.03%)および軌道予測(歩行者のMinade5で-0.408m)メトリック全体で優れたパフォーマンスを示しています。
驚くべきことに、このシステムは例外的な展開可能性を示します – エントリーレベルのNVIDIA 3060 GPUを備えた車椅子ロボットに実装された場合、13.2 fpsでリアルタイムの推論を実現します。
再現性と実用的な展開を促進するために、メソッドの関連コードをhttps://github.com/tosshero/3d_perceptionとそのROS推論バージョンでhttps://github.com/tosshero/ros_packagesでリリースします。

要約(オリジナル)

Service mobile robots are often required to avoid dynamic objects while performing their tasks, but they usually have only limited computational resources. So we present a lightweight multi-modal framework for 3D object detection and trajectory prediction. Our system synergistically integrates LiDAR and camera inputs to achieve real-time perception of pedestrians, vehicles, and riders in 3D space. The framework proposes two novel modules: 1) a Cross-Modal Deformable Transformer (CMDT) for object detection with high accuracy and acceptable amount of computation, and 2) a Reference Trajectory-based Multi-Class Transformer (RTMCT) for efficient and diverse trajectory prediction of mult-class objects with flexible trajectory lengths. Evaluations on the CODa benchmark demonstrate superior performance over existing methods across detection (+2.03% in mAP) and trajectory prediction (-0.408m in minADE5 of pedestrians) metrics. Remarkably, the system exhibits exceptional deployability – when implemented on a wheelchair robot with an entry-level NVIDIA 3060 GPU, it achieves real-time inference at 13.2 fps. To facilitate reproducibility and practical deployment, we release the related code of the method at https://github.com/TossherO/3D_Perception and its ROS inference version at https://github.com/TossherO/ros_packages.

arxiv情報

著者 Yushen He,Lei Zhao,Tianchen Deng,Zipeng Fang,Weidong Chen
発行日 2025-04-18 11:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | コメントする

Enhancing Pothole Detection and Characterization: Integrated Segmentation and Depth Estimation in Road Anomaly Systems

要約

道路の異常検出は、道路のメンテナンスとドライバーと車両の両方の安全性を高める上で重要な役割を果たします。
道路異常検出のための最近の機械学習アプローチは、手動分析と異常カウントの退屈で時間のかかるプロセスを克服しました。
しかし、彼らはしばしば道路のpot穴の完全な特性評価を提供するのに不足しています。
このホワイトペーパーでは、ダッシュボードに取り付けられたカメラからキャプチャされたデジタル画像を使用して、pot穴の自動特性評価のために事前に訓練されたYolov8-SEGモデルを採用することにより、転送学習を活用します。
私たちの仕事には、アルコバル市の多様な道路環境とサウジアラビアのKFUPMキャンパスから収集された、画像とそれらの対応する深度マップの両方で構成される新しいデータセットの作成が含まれます。
私たちのアプローチは、pot穴を正確にローカライズしてその領域を計算するために、ポットホール検出とセグメンテーションを実行します。
その後、セグメント化された画像をその深度マップとマージして、pot穴に関する詳細な深さ情報を抽出します。
セグメンテーションと深度データのこの統合は、以前の深い学習ベースの道路異常検出システムと比較して、より包括的な特性評価を提供します。
全体として、この方法は、道路の危険の検出と特性評価を改善することにより、自動運転車のナビゲーションを大幅に強化する可能性があるだけでなく、道路維持当局が道路の損傷により効果的に対応するのを支援します。

要約(オリジナル)

Road anomaly detection plays a crucial role in road maintenance and in enhancing the safety of both drivers and vehicles. Recent machine learning approaches for road anomaly detection have overcome the tedious and time-consuming process of manual analysis and anomaly counting; however, they often fall short in providing a complete characterization of road potholes. In this paper, we leverage transfer learning by adopting a pre-trained YOLOv8-seg model for the automatic characterization of potholes using digital images captured from a dashboard-mounted camera. Our work includes the creation of a novel dataset, comprising both images and their corresponding depth maps, collected from diverse road environments in Al-Khobar city and the KFUPM campus in Saudi Arabia. Our approach performs pothole detection and segmentation to precisely localize potholes and calculate their area. Subsequently, the segmented image is merged with its depth map to extract detailed depth information about the potholes. This integration of segmentation and depth data offers a more comprehensive characterization compared to previous deep learning-based road anomaly detection systems. Overall, this method not only has the potential to significantly enhance autonomous vehicle navigation by improving the detection and characterization of road hazards but also assists road maintenance authorities in responding more effectively to road damage.

arxiv情報

著者 Uthman Baroudi,Alala BaHamid,Yasser Elalfy,Ziad Al Alami
発行日 2025-04-18 11:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SY, eess.SY | コメントする

BRIGHT: A globally distributed multimodal building damage assessment dataset with very-high-resolution for all-weather disaster response

要約

災害イベントは世界中で発生し、人間の生活と財産に大きな損害を与えます。
地球観測(EO)データにより、災害の余波で人間の死傷者を減らし、災害救援活動を通知するための重要な能力である迅速かつ包括的な建築ダメージ評価(BDA)が可能になります。
最近の研究では、主に光学EOデータを使用して、目に見えない災害イベントの正確なマッピングを実現するためのAIモデルの開発に焦点を当てています。
ただし、光学データに基づくソリューションは、晴れた空と昼間の時間に限定されており、災害に対する迅速な対応を防ぎます。
マルチモーダル(MM)EOデータ、特に光学画像とSAR画像の組み合わせを統合することで、すべての天候の昼夜を問わず災害対応を提供することが可能になります。
この可能性にもかかわらず、堅牢なマルチモーダルAIモデルの開発は、適切なベンチマークデータセットの欠如によって制約されています。
このホワイトペーパーでは、AIベースの全天候型災害対応をサポートするために、非常に高解像度の光学およびSAR画像(明るい)を使用してBDAデータセットを提示します。
私たちの知る限り、Brightは、AIベースの災害対応をサポートするために特別にキュレーションされた、最初のオープンアクセス、グローバルに分散されたイベントダイバースMMデータセットです。
世界中の14の地域で5種類の自然災害と2種類の人工災害をカバーしており、外部支援が最も必要な発展途上国に特に焦点を当てています。
0.3〜1メートルの間の空間分解能を備えた明るい光とSARの画像は、個々の建物の詳細な表現を提供し、正確なBDAに最適です。
私たちの実験では、伝達可能性と堅牢性を検証するために、明るく訓練された7つの高度なAIモデルをテストしました。
データセットとコードは、https://github.com/chenhongruixuan/brightで入手できます。
Brightは、2025 IEEE GRSSデータフュージョンコンテストの公式データセットとしても機能します。

要約(オリジナル)

Disaster events occur around the world and cause significant damage to human life and property. Earth observation (EO) data enables rapid and comprehensive building damage assessment (BDA), an essential capability in the aftermath of a disaster to reduce human casualties and to inform disaster relief efforts. Recent research focuses on the development of AI models to achieve accurate mapping of unseen disaster events, mostly using optical EO data. However, solutions based on optical data are limited to clear skies and daylight hours, preventing a prompt response to disasters. Integrating multimodal (MM) EO data, particularly the combination of optical and SAR imagery, makes it possible to provide all-weather, day-and-night disaster responses. Despite this potential, the development of robust multimodal AI models has been constrained by the lack of suitable benchmark datasets. In this paper, we present a BDA dataset using veRy-hIGH-resoluTion optical and SAR imagery (BRIGHT) to support AI-based all-weather disaster response. To the best of our knowledge, BRIGHT is the first open-access, globally distributed, event-diverse MM dataset specifically curated to support AI-based disaster response. It covers five types of natural disasters and two types of man-made disasters across 14 regions worldwide, with a particular focus on developing countries where external assistance is most needed. The optical and SAR imagery in BRIGHT, with a spatial resolution between 0.3-1 meters, provides detailed representations of individual buildings, making it ideal for precise BDA. In our experiments, we have tested seven advanced AI models trained with our BRIGHT to validate the transferability and robustness. The dataset and code are available at https://github.com/ChenHongruixuan/BRIGHT. BRIGHT also serves as the official dataset for the 2025 IEEE GRSS Data Fusion Contest.

arxiv情報

著者 Hongruixuan Chen,Jian Song,Olivier Dietrich,Clifford Broni-Bediako,Weihao Xuan,Junjue Wang,Xinlei Shao,Yimin Wei,Junshi Xia,Cuiling Lan,Konrad Schindler,Naoto Yokoya
発行日 2025-04-18 12:07:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV, eess.SP | コメントする