Inconsistency-based Active Learning for LiDAR Object Detection

要約

自律運転におけるオブジェクト検出のためのディープラーニングモデルは、最近、印象的なパフォーマンスの向上を達成しており、すでに世界中の車両に展開されています。
ただし、現在のモデルでは、トレーニングのためにますます大きなデータセットが必要です。
このようなデータの取得とラベル付けには費用がかかるため、このプロセスを最適化するための新しい戦略の開発が必要です。
アクティブ学習は、画像ドメインで広範囲に研究されている有望なアプローチです。
私たちの仕事では、いくつかの矛盾に基づくサンプル選択戦略を開発し、さまざまな設定での有効性を評価することにより、この概念をLidarドメインに拡張します。
我々の結果は、検出されたボックスの数に基づいて素朴な矛盾アプローチを使用して、ラベル付きデータの50%でランダムサンプリング戦略と同じマップを達成することを示しています。

要約(オリジナル)

Deep learning models for object detection in autonomous driving have recently achieved impressive performance gains and are already being deployed in vehicles worldwide. However, current models require increasingly large datasets for training. Acquiring and labeling such data is costly, necessitating the development of new strategies to optimize this process. Active learning is a promising approach that has been extensively researched in the image domain. In our work, we extend this concept to the LiDAR domain by developing several inconsistency-based sample selection strategies and evaluate their effectiveness in various settings. Our results show that using a naive inconsistency approach based on the number of detected boxes, we achieve the same mAP as the random sampling strategy with 50% of the labeled data.

arxiv情報

著者 Esteban Rivera,Loic Stratil,Markus Lienkamp
発行日 2025-05-01 13:29:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Inconsistency-based Active Learning for LiDAR Object Detection はコメントを受け付けていません

InterLoc: LiDAR-based Intersection Localization using Road Segmentation with Automated Evaluation Method

要約

交差点は、すべての道路網の幾何学的および機能的なキーポイントです。
GNSSのドロップアウトを修正し、最新のマップに新しいセンサーデータを固定するための強力なランドマークを提供します。
その重要性にもかかわらず、交差点検出器は、搭載されている既に計算されている豊富なセマンティック情報を無視するか、希少な手標識交差データセットに依存します。
このギャップを埋めるために、このペーパーでは、(i)鳥瞰図(BEV)表現で交差点候補を検出するために、(i)セマンティックロードセグメンテーションと車両のローカリゼーションを融合し、(ii)少なくとも四角の策定で枝のトポロジーを分析することにより候補を洗練するためのLidarベースの方法を提示します。
私たちの方法を評価するために、正確なGNS/INSのグラウンド・トゥルース・ポーズを使用して、検出をOpenStreetMap(OSM)交差ノードとペアにする自動ベンチマークパイプラインを導入します。
8つのSemantickittiシーケンスでテストされたこのアプローチは、1.9 m、89%の精度、77%のリコールの平均局在誤差を5 mの許容範囲で達成し、最新の学習ベースのベースラインを上回ります。
さらに、この方法は、ベンチマークモデルのエラーよりも高いセグメンテーションエラーに対して堅牢であり、現実の世界での適用性を示しています。

要約(オリジナル)

Intersections are geometric and functional key points in every road network. They offer strong landmarks to correct GNSS dropouts and anchor new sensor data in up-to-date maps. Despite that importance, intersection detectors either ignore the rich semantic information already computed onboard or depend on scarce, hand-labeled intersection datasets. To close that gap, this paper presents a LiDAR-based method for intersection detection that (i) fuses semantic road segmentation with vehicle localization to detect intersection candidates in a bird’s eye view (BEV) representation and (ii) refines those candidates by analyzing branch topology with a least squares formulation. To evaluate our method, we introduce an automated benchmarking pipeline that pairs detections with OpenStreetMap (OSM) intersection nodes using precise GNSS/INS ground-truth poses. Tested on eight SemanticKITTI sequences, the approach achieves a mean localization error of 1.9 m, 89% precision, and 77% recall at a 5 m tolerance, outperforming the latest learning-based baseline. Moreover, the method is robust to segmentation errors higher than those of the benchmark model, demonstrating its applicability in the real world.

arxiv情報

著者 Nguyen Hoang Khoi Tran,Julie Stephany Berrio,Mao Shan,Zhenxing Ming,Stewart Worrall
発行日 2025-05-01 13:30:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | InterLoc: LiDAR-based Intersection Localization using Road Segmentation with Automated Evaluation Method はコメントを受け付けていません

Towards Global Localization using Multi-Modal Object-Instance Re-Identification

要約

再識別(Reid)は、歩行者と車両の文脈で主に研究されているコンピュータービジョンにおける重要な課題です。
ただし、自律探索、長期的な認識、シーンの理解などのタスクに大きな意味を持つ堅牢なオブジェクトインスタンスReidは、露出度の低いままです。
この作業では、マルチモーダルRGBと深度情報を統合する新しいデュアルパスオブジェクトインスタンスの再識別トランストランスアーキテクチャを提案することにより、このギャップに対処します。
深さデータを活用することにより、雑然としたシーンや照明条件がさまざまなシーン全体のReidの改善を示します。
さらに、Reidベースのローカリゼーションフレームワークを開発し、カメラの正確なローカリゼーションを可能にし、さまざまな視点で識別をもたらします。
2つのカスタム構築RGB-Dデータセットと、オープンソースTUM RGB-Dデータセットの複数のシーケンスを使用してメソッドを検証します。
私たちのアプローチは、Object Instance Reid(75.18のマップ)とローカリゼーションの精度(TUM-RGBDの83%の成功率)の両方で大幅な改善を示し、ロボット認識の進歩におけるオブジェクトリードの本質的な役割を強調しています。
モデル、フレームワーク、およびデータセットが公開されています。

要約(オリジナル)

Re-identification (ReID) is a critical challenge in computer vision, predominantly studied in the context of pedestrians and vehicles. However, robust object-instance ReID, which has significant implications for tasks such as autonomous exploration, long-term perception, and scene understanding, remains underexplored. In this work, we address this gap by proposing a novel dual-path object-instance re-identification transformer architecture that integrates multimodal RGB and depth information. By leveraging depth data, we demonstrate improvements in ReID across scenes that are cluttered or have varying illumination conditions. Additionally, we develop a ReID-based localization framework that enables accurate camera localization and pose identification across different viewpoints. We validate our methods using two custom-built RGB-D datasets, as well as multiple sequences from the open-source TUM RGB-D datasets. Our approach demonstrates significant improvements in both object instance ReID (mAP of 75.18) and localization accuracy (success rate of 83% on TUM-RGBD), highlighting the essential role of object ReID in advancing robotic perception. Our models, frameworks, and datasets have been made publicly available.

arxiv情報

著者 Aneesh Chavan,Vaibhav Agrawal,Vineeth Bhat,Sarthak Chittawar,Siddharth Srivastava,Chetan Arora,K Madhava Krishna
発行日 2025-05-01 13:45:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.CV, cs.RO, I.2.10 | Towards Global Localization using Multi-Modal Object-Instance Re-Identification はコメントを受け付けていません

A Methodological and Structural Review of Parkinsons Disease Detection Across Diverse Data Modalities

要約

パーキンソン病疾患(PD)は、主に運動機能に影響を与える進行性神経障害であり、その進行段階で軽度の認知障害(MCI)と認知症につながる可能性があります。
Japan TimesおよびParkinson FoundationのPDの早期かつ正確な診断の報告によると、1,000人あたり1,000人あたり1.8人が世界的に約1,000万人診断されているため、患者の転帰を改善するためには重要です。
多くの研究では、機械学習(ML)とDeep Learning(DL)技術がPD認識のために利用されていますが、既存の調査は範囲が限られており、多くの場合、単一のデータモダリティに焦点を当て、マルチモーダルアプローチの可能性を把握できません。
これらのギャップに対処するために、この研究では、磁気共鳴画像法(MRI)、歩行ベースのポーズ分析、歩行感覚データ、手書きテストデータ、音声テストデータ、脳波(EEG)、マルチモーダル融合技術など、さまざまなデータモダリティ全体のPD認識システムの包括的なレビューを提示します。
主要な科学データベースの347以上の記事に基づいて、このレビューでは、データ収集方法、設定、機能表現、システムパフォーマンスなどの重要な側面を、認識の精度と堅牢性に焦点を当てて検証します。
この調査の目的は、研究者向けの包括的なリソースとして機能し、次世代のPD認識システムの開発のための実用的なガイダンスを提供することを目的としています。
多様なデータのモダリティと最先端の機械学習パラダイムを活用することにより、この作業は、革新的でマルチモーダルアプローチを通じてPD診断の状態を進め、患者ケアの改善に貢献します。

要約(オリジナル)

Parkinsons Disease (PD) is a progressive neurological disorder that primarily affects motor functions and can lead to mild cognitive impairment (MCI) and dementia in its advanced stages. With approximately 10 million people diagnosed globally 1 to 1.8 per 1,000 individuals, according to reports by the Japan Times and the Parkinson Foundation early and accurate diagnosis of PD is crucial for improving patient outcomes. While numerous studies have utilized machine learning (ML) and deep learning (DL) techniques for PD recognition, existing surveys are limited in scope, often focusing on single data modalities and failing to capture the potential of multimodal approaches. To address these gaps, this study presents a comprehensive review of PD recognition systems across diverse data modalities, including Magnetic Resonance Imaging (MRI), gait-based pose analysis, gait sensory data, handwriting analysis, speech test data, Electroencephalography (EEG), and multimodal fusion techniques. Based on over 347 articles from leading scientific databases, this review examines key aspects such as data collection methods, settings, feature representations, and system performance, with a focus on recognition accuracy and robustness. This survey aims to serve as a comprehensive resource for researchers, providing actionable guidance for the development of next generation PD recognition systems. By leveraging diverse data modalities and cutting-edge machine learning paradigms, this work contributes to advancing the state of PD diagnostics and improving patient care through innovative, multimodal approaches.

arxiv情報

著者 Abu Saleh Musa Miah,taro Suzuki,Jungpil Shin
発行日 2025-05-01 13:47:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | A Methodological and Structural Review of Parkinsons Disease Detection Across Diverse Data Modalities はコメントを受け付けていません

CLR-Wire: Towards Continuous Latent Representations for 3D Curve Wireframe Generation

要約

ジオメトリとトポロジーを統合された連続潜在表現に統合する3D曲線ベースのワイヤフレーム生成のための新しいフレームワークであるCLR-Wireを紹介します。
頂点、エッジ、顔を切り離す従来の方法とは異なり、CLRワイヤーは、注意駆動型の変動自己エンコーダー(VAE)を使用して、トポロジカルな接続性とともに連続的で固定長の潜在空間への神経パラメトリック曲線として曲線をエンコードします。
この統一されたアプローチは、幾何学とトポロジの両方の共同学習と生成を促進します。
ワイヤーフレームを生成するために、フローマッチングモデルを使用して、ガウスノイズをこれらの潜伏物に徐々にマッピングし、その後完全な3Dワイヤフレームにデコードされます。
私たちの方法は、複雑な形状と不規則なトポロジの細粒モデリングを提供し、ポイントクラウドまたは画像入力で条件付けられた無条件の生成と生成の両方をサポートします。
実験結果は、最先端の生成アプローチと比較して、私たちの方法が精度、斬新、多様性の大幅な改善を達成し、CAD設計、幾何学的再構成、3Dコンテンツの作成に効率的で包括的なソリューションを提供することを示しています。

要約(オリジナル)

We introduce CLR-Wire, a novel framework for 3D curve-based wireframe generation that integrates geometry and topology into a unified Continuous Latent Representation. Unlike conventional methods that decouple vertices, edges, and faces, CLR-Wire encodes curves as Neural Parametric Curves along with their topological connectivity into a continuous and fixed-length latent space using an attention-driven variational autoencoder (VAE). This unified approach facilitates joint learning and generation of both geometry and topology. To generate wireframes, we employ a flow matching model to progressively map Gaussian noise to these latents, which are subsequently decoded into complete 3D wireframes. Our method provides fine-grained modeling of complex shapes and irregular topologies, and supports both unconditional generation and generation conditioned on point cloud or image inputs. Experimental results demonstrate that, compared with state-of-the-art generative approaches, our method achieves substantial improvements in accuracy, novelty, and diversity, offering an efficient and comprehensive solution for CAD design, geometric reconstruction, and 3D content creation.

arxiv情報

著者 Xueqi Ma,Yilin Liu,Tianlong Gao,Qirui Huang,Hui Huang
発行日 2025-05-01 13:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | CLR-Wire: Towards Continuous Latent Representations for 3D Curve Wireframe Generation はコメントを受け付けていません

A Robust Deep Networks based Multi-Object MultiCamera Tracking System for City Scale Traffic

要約

ネットワークカメラの数が増え続けるにつれて、トラフィックの監視、管理、および最適化のために、インテリジェントな輸送システム(ITS)でビジョンセンサーがより重要になっています。
ただし、複数の非重複カメラにわたる手動オブジェクトの追跡とマッチングは、都市規模の都市交通シナリオに大きな課題をもたらします。
これらの課題には、多様な車両属性、閉塞、照明のバリエーション、影、さまざまなビデオ解決の処理が含まれます。
これらの問題に対処するために、マルチオブジェクトマルチカメラ追跡(MO-MCT)のための効率的で費用対効果の高いディープラーニングベースのフレームワークを提案します。
提案されたフレームワークは、オブジェクト検出にマスクR-CNNを使用し、非最大抑制(NMS)を使用して、重複する検出からターゲットオブジェクトを選択します。
転送学習は、再識別のために採用されており、複数のカメラにわたって車両トラックレットの関連性と生成を可能にします。
さらに、閉塞、照明、影の課題を処理するために、適切な損失関数と距離測定を活用します。
最終的なソリューション識別モジュールは、ディープソートベースの車両追跡と組み合わせたResNet-152を使用して機能抽出を実行します。
提案されたフレームワークは、46のカメラフィードで構成される第5 AI City Challenge Dataset(トラック3)で評価されます。
これらの46のカメラストリームのうち、40はモデルトレーニングと検証に使用され、残りの6つはモデルテストに使用されます。
提案されたフレームワークは、0.8289のIDF1スコアで競争力のあるパフォーマンスを達成し、それぞれ0.9026と0.8527の精度とリコールスコアを達成し、堅牢で正確な車両追跡におけるその有効性を示しています。

要約(オリジナル)

Vision sensors are becoming more important in Intelligent Transportation Systems (ITS) for traffic monitoring, management, and optimization as the number of network cameras continues to rise. However, manual object tracking and matching across multiple non-overlapping cameras pose significant challenges in city-scale urban traffic scenarios. These challenges include handling diverse vehicle attributes, occlusions, illumination variations, shadows, and varying video resolutions. To address these issues, we propose an efficient and cost-effective deep learning-based framework for Multi-Object Multi-Camera Tracking (MO-MCT). The proposed framework utilizes Mask R-CNN for object detection and employs Non-Maximum Suppression (NMS) to select target objects from overlapping detections. Transfer learning is employed for re-identification, enabling the association and generation of vehicle tracklets across multiple cameras. Moreover, we leverage appropriate loss functions and distance measures to handle occlusion, illumination, and shadow challenges. The final solution identification module performs feature extraction using ResNet-152 coupled with Deep SORT based vehicle tracking. The proposed framework is evaluated on the 5th AI City Challenge dataset (Track 3), comprising 46 camera feeds. Among these 46 camera streams, 40 are used for model training and validation, while the remaining six are utilized for model testing. The proposed framework achieves competitive performance with an IDF1 score of 0.8289, and precision and recall scores of 0.9026 and 0.8527 respectively, demonstrating its effectiveness in robust and accurate vehicle tracking.

arxiv情報

著者 Muhammad Imran Zaman,Usama Ijaz Bajwa,Gulshan Saleem,Rana Hammad Raza
発行日 2025-05-01 14:00:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Robust Deep Networks based Multi-Object MultiCamera Tracking System for City Scale Traffic はコメントを受け付けていません

LGD: Leveraging Generative Descriptions for Zero-Shot Referring Image Segmentation

要約

ゼロショット参照画像セグメンテーションは、視覚的およびテキストのモダリティ全体にわたってセマンティクスを調整および一致させるという主要な課題とともに、参照式に基づいてターゲット領域を見つけてセグメントすることを目的としています。
以前の作品は、ビジョン言語モデルを利用して、地域テキストマッチングのために提案ネットワークをマスクすることにより、この課題に対処します。
ただし、このパラダイムは、自由形式を参照する式の固有の曖昧さと多様性のために、ターゲットのローカリゼーションが誤っていない場合があります。
この問題を緩和するために、マルチモーダルの大手言語モデルの高度な言語生成機能を利用してビジョン言語モデルの領域マッチングパフォーマンスを強化するLGD(生成記述の活用)を提示します。
具体的には、最初に2種類のプロンプト、属性プロンプトと周囲のプロンプトを設計し、参照オブジェクトの重要な属性と周囲のオブジェクトの詳細に関連する記述をそれぞれ生成する際に、それぞれ属性記述と周囲の説明と呼ばれる記述を生成する際にマルチモーダルの大規模な言語モデルをガイドします。
第二に、インスタンスレベルの視覚的特徴とテキスト機能の類似性を評価するために、3つの視覚テキストマッチングスコアが導入され、参照式に最も関連するマスクを決定します。
提案された方法は、3つのパブリックデータセットRefcoco、Refcoco+、およびRefcocogで新しい最先端のパフォーマンスを達成し、以前の方法と比較して、OIOUで9.97%、MIOUで11.29%の最大改善があります。

要約(オリジナル)

Zero-shot referring image segmentation aims to locate and segment the target region based on a referring expression, with the primary challenge of aligning and matching semantics across visual and textual modalities without training. Previous works address this challenge by utilizing Vision-Language Models and mask proposal networks for region-text matching. However, this paradigm may lead to incorrect target localization due to the inherent ambiguity and diversity of free-form referring expressions. To alleviate this issue, we present LGD (Leveraging Generative Descriptions), a framework that utilizes the advanced language generation capabilities of Multi-Modal Large Language Models to enhance region-text matching performance in Vision-Language Models. Specifically, we first design two kinds of prompts, the attribute prompt and the surrounding prompt, to guide the Multi-Modal Large Language Models in generating descriptions related to the crucial attributes of the referent object and the details of surrounding objects, referred to as attribute description and surrounding description, respectively. Secondly, three visual-text matching scores are introduced to evaluate the similarity between instance-level visual features and textual features, which determines the mask most associated with the referring expression. The proposed method achieves new state-of-the-art performance on three public datasets RefCOCO, RefCOCO+ and RefCOCOg, with maximum improvements of 9.97% in oIoU and 11.29% in mIoU compared to previous methods.

arxiv情報

著者 Jiachen Li,Qing Xie,Renshu Gu,Jinyu Xu,Yongjian Liu,Xiaohan Yu
発行日 2025-05-01 14:14:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LGD: Leveraging Generative Descriptions for Zero-Shot Referring Image Segmentation はコメントを受け付けていません

X-ray illicit object detection using hybrid CNN-transformer neural network architectures

要約

X線セキュリティアプリケーションの分野では、最小の詳細でも結果に大きな影響を与える可能性があります。
大量に閉塞されている、または意図的に隠されたオブジェクトは、人間の観察によるものであろうと高度な技術的アプリケーションを通じて、検出に大きな挑戦をもたらします。
特定のディープラーニング(DL)アーキテクチャは、畳み込みニューラルネットワーク(CNN)などのローカル情報の処理において強力なパフォーマンスを示していますが、他の人は遠い情報、たとえば変圧器の処理に優れています。
X線セキュリティイメージングでは、文献はCNNベースの方法の使用によって支配されていますが、前述の2つの主要アーキテクチャの統合は十分に調査されていません。
このホワイトペーパーでは、さまざまなハイブリッドCNNトランスフォーマーアーキテクチャを、一般的なCNNオブジェクト検出ベースライン、つまりYolov8に対して評価します。
特に、CNN(HGNETV2)とハイブリッドCNNトランスフォーカー(Next-vit-S)バックボーンは、異なるCNN/トランス検出ヘッド(Yolov8およびRT-Detr)と組み合わされます。
結果のアーキテクチャは、3つの挑戦的なパブリックX線検査データセット、つまりEDS、HIXRAY、およびPIDRAYで比較的評価されています。
興味深いことに、デフォルトのバックボーン(CSP-DarkNet53)を備えたYolov8検出器は、一般に、X線画像(EDSデータセットで起こるように)にドメイン分布シフトが組み込まれている場合、HixrayおよびPidrayデータセットで有利であることが示されていますが、ハイブリッドCNN-トランスフォーマーアーキテクチャーは堅牢性を示します。
オブジェクトレベルの検出パフォーマンスとオブジェクトサイズのエラー分析を含む詳細な比較評価結果は、各アーキテクチャの組み合わせの長所と短所を示し、将来の研究のためのガイドラインを提案します。
この研究で採用されているモデルのソースコードとネットワークの重みは、https://github.com/jgenc/xray-comparative-valuationで入手できます。

要約(オリジナル)

In the field of X-ray security applications, even the smallest details can significantly impact outcomes. Objects that are heavily occluded or intentionally concealed pose a great challenge for detection, whether by human observation or through advanced technological applications. While certain Deep Learning (DL) architectures demonstrate strong performance in processing local information, such as Convolutional Neural Networks (CNNs), others excel in handling distant information, e.g., transformers. In X-ray security imaging the literature has been dominated by the use of CNN-based methods, while the integration of the two aforementioned leading architectures has not been sufficiently explored. In this paper, various hybrid CNN-transformer architectures are evaluated against a common CNN object detection baseline, namely YOLOv8. In particular, a CNN (HGNetV2) and a hybrid CNN-transformer (Next-ViT-S) backbone are combined with different CNN/transformer detection heads (YOLOv8 and RT-DETR). The resulting architectures are comparatively evaluated on three challenging public X-ray inspection datasets, namely EDS, HiXray, and PIDray. Interestingly, while the YOLOv8 detector with its default backbone (CSP-DarkNet53) is generally shown to be advantageous on the HiXray and PIDray datasets, when a domain distribution shift is incorporated in the X-ray images (as happens in the EDS datasets), hybrid CNN-transformer architectures exhibit increased robustness. Detailed comparative evaluation results, including object-level detection performance and object-size error analysis, demonstrate the strengths and weaknesses of each architectural combination and suggest guidelines for future research. The source code and network weights of the models employed in this study are available at https://github.com/jgenc/xray-comparative-evaluation.

arxiv情報

著者 Jorgen Cani,Christos Diou,Spyridon Evangelatos,Panagiotis Radoglou-Grammatikis,Vasileios Argyriou,Panagiotis Sarigiannidis,Iraklis Varlamis,Georgios Th. Papadopoulos
発行日 2025-05-01 14:40:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | X-ray illicit object detection using hybrid CNN-transformer neural network architectures はコメントを受け付けていません

Multimodal Masked Autoencoder Pre-training for 3D MRI-Based Brain Tumor Analysis with Missing Modalities

要約

マルチモーダル磁気共鳴画像(MRI)は、脳腫瘍のケアにおける臨床医の最初の調査ラインを構成し、手術計画、治療監視、およびバイオマーカーの識別に関する重要な洞察を提供します。
大規模なデータセットでの事前トレーニングは、モデルが転送可能な表現を学び、最小限のラベル付きデータで適応するのに役立つことが示されています。
この行動は、注釈がしばしば希少な医療画像で特に価値があります。
ただし、このパラダイムをマルチモーダルの医療データに適用すると、課題が導入されます。ほとんどの既存のアプローチは、すべてのイメージングモダリティがトレーニング前と微調整の両方で利用可能であると仮定します。
実際には、習得の問題、専門家の利用不能、または小さな社内データセットの特定の実験設計により、モダリティの欠落がしばしば発生します。
したがって、一般的なアプローチでは、望ましいモダリティの組み合わせごとに個別のモデルをトレーニングし、リソース集約型と臨床使用のためにプロセスの両方にすることが含まれます。
したがって、マルチモーダルMRIデータに合わせて調整されたトレーニング前戦略をモデリングするマスクされた画像モデリングであるBM-MAEを紹介します。
同じ事前に訓練されたモデルは、利用可能なモダリティの任意の組み合わせにシームレスに適応し、モーダル間情報とインター間情報の両方をキャプチャする豊富な表現を抽出します。
これにより、構造の変更を必要とせずにモダリティのサブセットを微調整できますが、モダリティの完全なセットで事前に訓練されたモデルの恩恵を受けます。
広範な実験では、提案されたトレーニング前の戦略が、各モダリティサブセットの個別のトレーニングを必要とするベースラインよりも優れているか、競争力があり、いくつかのダウンストリームタスクでゼロからトレーニングをゼロから上回ることが示されています。
さらに、不足しているモダリティを迅速かつ効率的に再構築することができ、その実用的な価値を強調することができます。
コードモデルと訓練されたモデルは、https://github.com/lucas-rbnt/bmmaeで入手できます

要約(オリジナル)

Multimodal magnetic resonance imaging (MRI) constitutes the first line of investigation for clinicians in the care of brain tumors, providing crucial insights for surgery planning, treatment monitoring, and biomarker identification. Pre-training on large datasets have been shown to help models learn transferable representations and adapt with minimal labeled data. This behavior is especially valuable in medical imaging, where annotations are often scarce. However, applying this paradigm to multimodal medical data introduces a challenge: most existing approaches assume that all imaging modalities are available during both pre-training and fine-tuning. In practice, missing modalities often occur due to acquisition issues, specialist unavailability, or specific experimental designs on small in-house datasets. Consequently, a common approach involves training a separate model for each desired modality combination, making the process both resource-intensive and impractical for clinical use. Therefore, we introduce BM-MAE, a masked image modeling pre-training strategy tailored for multimodal MRI data. The same pre-trained model seamlessly adapts to any combination of available modalities, extracting rich representations that capture both intra- and inter-modal information. This allows fine-tuning on any subset of modalities without requiring architectural changes, while still benefiting from a model pre-trained on the full set of modalities. Extensive experiments show that the proposed pre-training strategy outperforms or remains competitive with baselines that require separate pre-training for each modality subset, while substantially surpassing training from scratch on several downstream tasks. Additionally, it can quickly and efficiently reconstruct missing modalities, highlighting its practical value. Code and trained models are available at: https://github.com/Lucas-rbnt/bmmae

arxiv情報

著者 Lucas Robinet,Ahmad Berjaoui,Elizabeth Cohen-Jonathan Moyal
発行日 2025-05-01 14:51:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Multimodal Masked Autoencoder Pre-training for 3D MRI-Based Brain Tumor Analysis with Missing Modalities はコメントを受け付けていません

Synthesizing and Identifying Noise Levels in Autonomous Vehicle Camera Radar Datasets

要約

オブジェクトの検出と追跡は、自律的なナビゲーション法の重要なコンポーネントです。
過去数十年間、オブジェクト検出は、さまざまなデータセットでニューラルネットワークを使用して有望な結果をもたらしてきました。
多くの方法がパフォーマンスメトリックに焦点を当てていますが、これらの検出と追跡パイプラインの堅牢性の改善、特にセンサーの障害に焦点を当てたプロジェクトはほとんどありません。
この論文では、カメララーダー自律車両(AV)データセットの現実的な合成データ増強パイプラインを作成することにより、この問題に対処しようとします。
私たちの目標は、実際の干渉によるセンサーの障害とデータの悪化を正確にシミュレートすることです。
また、拡張データセットでトレーニングおよびテストされたベースラインの軽量ノイズ認識ニューラルネットワークの結果を示し、10086画像と2145レーダーポイントクラウドの11カテゴリで54.4 \%の全体的な認識精度に達します。

要約(オリジナル)

Detecting and tracking objects is a crucial component of any autonomous navigation method. For the past decades, object detection has yielded promising results using neural networks on various datasets. While many methods focus on performance metrics, few projects focus on improving the robustness of these detection and tracking pipelines, notably to sensor failures. In this paper we attempt to address this issue by creating a realistic synthetic data augmentation pipeline for camera-radar Autonomous Vehicle (AV) datasets. Our goal is to accurately simulate sensor failures and data deterioration due to real-world interferences. We also present our results of a baseline lightweight Noise Recognition neural network trained and tested on our augmented dataset, reaching an overall recognition accuracy of 54.4\% on 11 categories across 10086 images and 2145 radar point-clouds.

arxiv情報

著者 Mathis Morales,Golnaz Habibi
発行日 2025-05-01 15:15:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV, eess.SP | Synthesizing and Identifying Noise Levels in Autonomous Vehicle Camera Radar Datasets はコメントを受け付けていません