Better artificial intelligence does not mean better models of biology

要約

ディープニューラルネットワーク(DNNS)は、視覚ベンチマークを改善するにつれて、霊長類の知覚と神経反応との整合性の増加をかつて示し、AIの進歩が生物学的視力のより良いモデルをもたらすという希望を高めました。
ただし、DNNSが人間または超人の精度にスケーリングするため、このアライメントが現在、および場合によっては悪化していることを3つのベンチマークで示しています。
この相違は、霊長類が使用するものとは異なる視覚戦略の採用を反映している可能性があります。
これらの発見は、人工知能の進歩が自然に神経科学に変換されるという見解に挑戦します。
ビジョンサイエンスは、インターネットスケールのデータセットに基づいてベンチマークに最適化するのではなく、生物学的視覚システムに基づいたアルゴリズムを開発し、独自のコースを作成しなければならないと主張します。

要約(オリジナル)

Deep neural networks (DNNs) once showed increasing alignment with primate perception and neural responses as they improved on vision benchmarks, raising hopes that advances in AI would yield better models of biological vision. However, we show across three benchmarks that this alignment is now plateauing – and in some cases worsening – as DNNs scale to human or superhuman accuracy. This divergence may reflect the adoption of visual strategies that differ from those used by primates. These findings challenge the view that progress in artificial intelligence will naturally translate to neuroscience. We argue that vision science must chart its own course, developing algorithms grounded in biological visual systems rather than optimizing for benchmarks based on internet-scale datasets.

arxiv情報

著者 Drew Linsley,Pinyuan Feng,Thomas Serre
発行日 2025-04-28 16:05:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, q-bio.NC | Better artificial intelligence does not mean better models of biology はコメントを受け付けていません

Accelerated 3D-3D rigid registration of echocardiographic images obtained from apical window using particle filter

要約

さまざまな角度からキャプチャされた3D心エコー造影画像の完全な整合により、画質が向上し、視野が広がりました。
この研究では、超音波画像のノイズと強度の変動に堅牢な頂端窓から著しく制限された経胸壁心エコー画像の3D-3D剛性登録のための加速された順次モンテカルロ(SMC)アルゴリズムを提案しています。
アルゴリズムは、反復プロセスを介して剛体変換の翻訳コンポーネントと回転成分を推定し、回転および翻訳の制限の初期近似を必要とします。
登録を2つの方法で実行します。画像ベースの登録は、頂端の非標準画像の最終拡張期フレームを頂端標準画像に整列させる変換を計算し、同じ変換を心臓循環のすべてのフレームに適用しますが、マスクベースの登録アプローチは左心室のバイナリマスクを同じ方法で使用します。
Mazankowski Alberta Heart Instituteで実施された研究に参加した7人のボランティアから記録された4D時間シーケンスについて、SMCおよび徹底的な検索(EX)アルゴリズムが評価されました。
評価は、加速SMCのマスクベースのアプローチが、左心室でCPUバージョンと比較して16.7倍のスピードアップを獲得し、左心室で0.819 +/- 0.045のDICEスコア値を生成したことを示しています。

要約(オリジナル)

The perfect alignment of 3D echocardiographic images captured from various angles has improved image quality and broadened the field of view. This study proposes an accelerated sequential Monte Carlo (SMC) algorithm for 3D-3D rigid registration of transthoracic echocardiographic images with significant and limited overlap taken from apical window that is robust to the noise and intensity variation in ultrasound images. The algorithm estimates the translational and rotational components of the rigid transform through an iterative process and requires an initial approximation of the rotation and translation limits. We perform registration in two ways: the image-based registration computes the transform to align the end-diastolic frame of the apical nonstandard image to the apical standard image and applies the same transform to all frames of the cardiac cycle, whereas the mask-based registration approach uses the binary masks of the left ventricle in the same way. The SMC and exhaustive search (EX) algorithms were evaluated for 4D temporal sequences recorded from 7 volunteers who participated in a study conducted at the Mazankowski Alberta Heart Institute. The evaluations demonstrate that the mask-based approach of the accelerated SMC yielded a Dice score value of 0.819 +/- 0.045 for the left ventricle and gained 16.7x speedup compared to the CPU version of the SMC algorithm.

arxiv情報

著者 Thanuja Uruththirakodeeswaran,Harald Becher,Michelle Noga,Lawrence H. Le,Pierre Boulanger,Jonathan Windram,Kumaradevan Punithakumar
発行日 2025-04-28 16:06:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Accelerated 3D-3D rigid registration of echocardiographic images obtained from apical window using particle filter はコメントを受け付けていません

Enhancing Quality for VVC Compressed Videos with Omniscient Quality Enhancement Model

要約

最新のビデオコーディング標準H.266/VVCは、前任者のHEVC標準と比較した場合、圧縮性能に関して大きな改善を示しています。
VVCは多くの高度な手法で実装されていましたが、デコーダー側での知覚品質需要がさらに高いこととエンコーダー側での圧縮性能が必要であるため、前任者と同じ課題を満たしています。
人工知能(AI)テクノロジーの進歩、特に深い学習ベースのビデオ品質強化方法は、知覚品質体験を改善するための有望なアプローチであることが示されました。
この論文では、VVC圧縮ビデオ用の新しい全知のビデオ品質エンハンスネットネットワークを提案します。
圧縮されたビデオ品質エンハンスメントのための全知ネットワークは、もともと空間的な特徴だけでなく、視覚品質を増強するために頻繁に通過する頻度の情報も採用されたHEVC圧縮ビデオ用に設計されました。
この作業に触発されて、OVQEモデルの変更を提案し、それを持続したSTD-VVC(標準的な汎用ビデオコーディング)デコーダーアーキテクチャに統合します。
豊富な一連のテスト条件で評価されているように、提案されたOVQE-VVCソリューションは、元のSTD-VVCコーデックに関して、特に0.74 dB、最大1.2 dBの大幅なPSNR改善を達成することができます。
これは、同様の品質観察を維持しながら、ビットレートの節約の約19.6%にも対応しています。

要約(オリジナル)

The latest video coding standard H.266/VVC has shown its great improvement in terms of compression performance when compared to its predecessor HEVC standard. Though VVC was implemented with many advanced techniques, it still met the same challenges as its predecessor due to the need for even higher perceptual quality demand at the decoder side as well as the compression performance at the encoder side. The advancement of Artificial Intelligence (AI) technology, notably the deep learning-based video quality enhancement methods, was shown to be a promising approach to improving the perceptual quality experience. In this paper, we propose a novel Omniscient video quality enhancement Network for VVC compressed Videos. The Omniscient Network for compressed video quality enhancement was originally designed for HEVC compressed videos in which not only the spatial-temporal features but also cross-frequencies information were employed to augment the visual quality. Inspired by this work, we propose a modification of the OVQE model and integrate it into the lasted STD-VVC (Standard Versatile Video Coding) decoder architecture. As assessed in a rich set of test conditions, the proposed OVQE-VVC solution is able to achieve significant PSNR improvement, notably around 0.74 dB and up to 1.2 dB with respect to the original STD-VVC codec. This also corresponds to around 19.6% of bitrate saving while keeping a similar quality observation.

arxiv情報

著者 Xiem HoangVan,Hieu Bui Minh,Sang NguyenQuang,Wen-Hsiao Peng
発行日 2025-04-28 16:08:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Enhancing Quality for VVC Compressed Videos with Omniscient Quality Enhancement Model はコメントを受け付けていません

Mesh-Learner: Texturing Mesh with Spherical Harmonics

要約

このホワイトペーパーでは、従来のラスター化パイプラインとネイティブに互換性のあるメッシュ学習者と呼ばれる3D再構成およびレンダリングフレームワークを紹介します。
メッシュと球状高調波(SH)テクスチャ(つまり、SH係数で満たされたテクスチャ)を学習プロセスに統合して、各メッシュのビュー依存性放射輝度を学習します。
画像は、新しい補間法を使用して、各ピクセルSサンプリングポイントで周囲のSHテクセルを補間することによってレンダリングされます。
逆に、各ピクセルからの勾配は、SHテクスチャの関連するSHテクセルに戻ってプロップします。
Mesh-Learnerは、ラスター化パイプライン(テクスチャサンプリング、延期レンダリング)のグラフィック機能をレンダリングにします。これにより、メッシュ学習者は、ツール(ブレンダーなど)とタスク(例えば、3D再構築、シーンレンダリング、ロボットの補強学習)と自然に互換性があります。
私たちのシステムは、トレーニングのためにGPUにSHテクスチャのみをGPUに転送するため、広大で無制限のシーンをトレーニングできます。
それ以外の場合、SHテクスチャはCPU RAMに保存され、その結果、GPUメモリ使用が中程度になります。
レプリカおよび高速livo2データセットの補間と外挿シーケンスのレンダリング結果は、既存の最先端の方法(3DガウスのスプラッティングやM2マッピングなど)と比較して、最先端のパフォーマンスを実現します。
社会に利益をもたらすために、コードはhttps://github.com/hku-mars/mesh-learnerで入手できます。

要約(オリジナル)

In this paper, we present a 3D reconstruction and rendering framework termed Mesh-Learner that is natively compatible with traditional rasterization pipelines. It integrates mesh and spherical harmonic (SH) texture (i.e., texture filled with SH coefficients) into the learning process to learn each mesh s view-dependent radiance end-to-end. Images are rendered by interpolating surrounding SH Texels at each pixel s sampling point using a novel interpolation method. Conversely, gradients from each pixel are back-propagated to the related SH Texels in SH textures. Mesh-Learner exploits graphic features of rasterization pipeline (texture sampling, deferred rendering) to render, which makes Mesh-Learner naturally compatible with tools (e.g., Blender) and tasks (e.g., 3D reconstruction, scene rendering, reinforcement learning for robotics) that are based on rasterization pipelines. Our system can train vast, unlimited scenes because we transfer only the SH textures within the frustum to the GPU for training. At other times, the SH textures are stored in CPU RAM, which results in moderate GPU memory usage. The rendering results on interpolation and extrapolation sequences in the Replica and FAST-LIVO2 datasets achieve state-of-the-art performance compared to existing state-of-the-art methods (e.g., 3D Gaussian Splatting and M2-Mapping). To benefit the society, the code will be available at https://github.com/hku-mars/Mesh-Learner.

arxiv情報

著者 Yunfei Wan,Jianheng Liu,Jiarong Lin,Fu Zhang
発行日 2025-04-28 16:09:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Mesh-Learner: Texturing Mesh with Spherical Harmonics はコメントを受け付けていません

Conditional Electrocardiogram Generation Using Hierarchical Variational Autoencoders

要約

心血管疾患(CVD)は、心臓と循環系に影響を与える障害です。
これらの障害は、世界中の死亡の原因と継続的に継続的にエスカレートする原因です。
CVDを操作する際の主なタスクの1つは、標準の10秒の期間で12鉛の心電図(ECG)の病理を分析および特定することです。
自動ECG分析で機械学習(ML)を使用すると、CVD診断の可用性、速度、精度が向上します。
ただし、MLモデルの開発における最も重要な難易度は、十分なトレーニングデータセットを取得することです。
高価、エラー、ラベルの曖昧さ、クラスの不均衡、プライバシーの問題など、医療データの使用の制限により、特定の病理に応じて合成サンプルを利用して、これらの制限をバイパスし、アルゴリズムの品質を向上させます。
ECGシグナルの条件付きソリューションは、主に生成的敵対ネットワーク(GANS)に基づいて構築されており、変分自動エンコーダー(VAE)に基づくアーキテクチャを考慮している論文は、最近の作品で同等の結果を示しています。
このペーパーでは、複数の病理を備えた高解像度ECGを生成するECG信号生成(CNVAE-ECG)の公開されている条件付きヌーボーvaeモデルを提案します。
レシーバー動作特性(AUROC)の下の領域がGANのような競合他社を上回る最大2%を超える領域を示す転送学習シナリオなど、さまざまな実用的な下流タスクで提案されたモデルの広範な比較を提供します。

要約(オリジナル)

Cardiovascular diseases (CVDs) are disorders impacting the heart and circulatory system. These disorders are the foremost and continuously escalating cause of mortality worldwide. One of the main tasks when working with CVDs is analyzing and identifying pathologies on a 12-lead electrocardiogram (ECG) with a standard 10-second duration. Using machine learning (ML) in automatic ECG analysis increases CVD diagnostics’ availability, speed, and accuracy. However, the most significant difficulty in developing ML models is obtaining a sufficient training dataset. Due to the limitations of medical data usage, such as expensiveness, errors, the ambiguity of labels, imbalance of classes, and privacy issues, utilizing synthetic samples depending on specific pathologies bypasses these restrictions and improves algorithm quality. Existing solutions for the conditional generation of ECG signals are mainly built on Generative Adversarial Networks (GANs), and only a few papers consider the architectures based on Variational Autoencoders (VAEs), showing comparable results in recent works. This paper proposes the publicly available conditional Nouveau VAE model for ECG signal generation (cNVAE-ECG), which produces high-resolution ECGs with multiple pathologies. We provide an extensive comparison of the proposed model on various practical downstream tasks, including transfer learning scenarios showing an area under the receiver operating characteristic (AUROC) increase up to 2% surpassing GAN-like competitors.

arxiv情報

著者 Ivan Sviridov,Konstantin Egorov
発行日 2025-04-28 16:10:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.SP | Conditional Electrocardiogram Generation Using Hierarchical Variational Autoencoders はコメントを受け付けていません

Shopformer: Transformer-Based Framework for Detecting Shoplifting via Human Pose

要約

万引きは小売部門にとって費用のかかる問題のままですが、ほとんどが人間の監視に基づいている従来の監視システムは、依然としてほとんど効果がなく、万引きは約2%しか逮捕されていません。
既存のAIベースのアプローチは、プライバシーの懸念を引き起こすピクセルレベルのビデオ分析に依存しており、環境の変動に敏感であり、重要な計算リソースを要求します。
これらの制限に対処するために、生ビデオではなくポーズシーケンスを分析することで万引きを検出する新しい変圧器ベースのモデルであるShopformerを紹介します。
ポーズシーケンスを効率的な変圧器処理のためにコンパクトな埋め込みに変換するカスタムトークン化戦略を提案します。
私たちの知る限り、これは万引き検出のための最初のポーズシーケンスベースのトランスモデルです。
現実世界のポーズデータで評価されたこの方法は、最先端の異常検出モデルよりも優れており、リアルタイムの小売監視のためのプライバシーを提供し、スケーラブルなソリューションを提供します。
この作業のコードベースは、https://github.com/tecsar-uncc/shopformerで入手できます。

要約(オリジナル)

Shoplifting remains a costly issue for the retail sector, but traditional surveillance systems, which are mostly based on human monitoring, are still largely ineffective, with only about 2% of shoplifters being arrested. Existing AI-based approaches rely on pixel-level video analysis which raises privacy concerns, is sensitive to environmental variations, and demands significant computational resources. To address these limitations, we introduce Shopformer, a novel transformer-based model that detects shoplifting by analyzing pose sequences rather than raw video. We propose a custom tokenization strategy that converts pose sequences into compact embeddings for efficient transformer processing. To the best of our knowledge, this is the first pose-sequence-based transformer model for shoplifting detection. Evaluated on real-world pose data, our method outperforms state-of-the-art anomaly detection models, offering a privacy-preserving, and scalable solution for real-time retail surveillance. The code base for this work is available at https://github.com/TeCSAR-UNCC/Shopformer.

arxiv情報

著者 Narges Rashvand,Ghazal Alinezhad Noghre,Armin Danesh Pazho,Babak Rahimi Ardabili,Hamed Tabkhi
発行日 2025-04-28 16:43:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Shopformer: Transformer-Based Framework for Detecting Shoplifting via Human Pose はコメントを受け付けていません

From Brainwaves to Brain Scans: A Robust Neural Network for EEG-to-fMRI Synthesis

要約

機能的磁気共鳴画像(fMRI)は脳の活動に関する貴重な洞察を提供しますが、高い運用コストと重要なインフラストラクチャの要求によって制限されています。
対照的に、脳波(EEG)は、電気的活動のキャプチャにおいてミリ秒レベルの精度を提供しますが、正確な神経局在化に必要な空間的忠実度がありません。
これらのギャップを埋めるために、低コストのEEGデータからfMRI画像を合成するためのシンプルで効果的な深い学習モデルであるE2FNETを提案します。
E2FNETは、EEGからの有意義なマルチスケール機能を、電極チャネル全体のEEGからの正確なfMRI表現にキャプチャして変換するように特別に設計されたエンコーダーデコーダーネットワークです。
3つのパブリックデータセットにわたる広範な評価は、E2FNETが既存のCNNベースおよび変圧器ベースの方法を常に上回り、構造類似性インデックス測定(SSIM)の観点から最先端の結果を達成することを示しています。
これらの結果は、E2FNETがニューロイメージング機能を強化するための有望で費用対効果の高いソリューションであることを示しています。
このコードはhttps://github.com/kgr20/e2fnetで入手できます。

要約(オリジナル)

While functional magnetic resonance imaging (fMRI) offers valuable insights into brain activity, it is limited by high operational costs and significant infrastructural demands. In contrast, electroencephalography (EEG) provides millisecond-level precision in capturing electrical activity but lacks the spatial fidelity necessary for precise neural localization. To bridge these gaps, we propose E2fNet, a simple yet effective deep learning model for synthesizing fMRI images from low-cost EEG data. E2fNet is an encoder-decoder network specifically designed to capture and translate meaningful multi-scale features from EEG across electrode channels into accurate fMRI representations. Extensive evaluations across three public datasets demonstrate that E2fNet consistently outperforms existing CNN- and transformer-based methods, achieving state-of-the-art results in terms of the structural similarity index measure (SSIM). These results demonstrate that E2fNet is a promising, cost-effective solution for enhancing neuroimaging capabilities. The code is available at https://github.com/kgr20/E2fNet.

arxiv情報

著者 Kristofer Grover Roos,Atsushi Fukuda,Quan Huu Cap
発行日 2025-04-28 16:57:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | From Brainwaves to Brain Scans: A Robust Neural Network for EEG-to-fMRI Synthesis はコメントを受け付けていません

Mapping of Weed Management Methods in Orchards using Sentinel-2 and PlanetScope Data

要約

雑草は栄養素や水などの重要な資源のために作物と競合するため、農業生産性を改善するためには効果的な雑草管理が重要です。
雑草管理方法の正確な地図は、政策立案者が農民の慣行を評価し、植生の健康、生物多様性、気候への影響を評価し、政策と補助金の遵守を確保するために不可欠です。
ただし、雑草管理方法の監視は、一般的に地上のフィールド調査に依存しているため、困難です。
この問題に取り組むために、地球観測(EO)データと機械学習(ML)を活用します。
具体的には、衛星画像時系列(SITS)データの2つの異なるソース(Sentinel-2(S2)とPlanetscope(PS)からの4つの異なる雑草管理方法(刈り取り、耕作、化学的スプレー、練習なし、練習なし)をマッピングするためのMLアプローチを開発しました。
調査結果は、果樹園の雑草管理マッピングの効率と精度を高めるためのML駆動型のリモートセンシングの可能性を示しています。

要約(オリジナル)

Effective weed management is crucial for improving agricultural productivity, as weeds compete with crops for vital resources like nutrients and water. Accurate maps of weed management methods are essential for policymakers to assess farmer practices, evaluate impacts on vegetation health, biodiversity, and climate, as well as ensure compliance with policies and subsidies. However, monitoring weed management methods is challenging as commonly rely on on-ground field surveys, which are often costly, time-consuming and subject to delays. In order to tackle this problem, we leverage Earth Observation (EO) data and Machine Learning (ML). Specifically, we developed an ML approach for mapping four distinct weed management methods (Mowing, Tillage, Chemical-spraying, and No practice) in orchards using satellite image time series (SITS) data from two different sources: Sentinel-2 (S2) and PlanetScope (PS). The findings demonstrate the potential of ML-driven remote sensing to enhance the efficiency and accuracy of weed management mapping in orchards.

arxiv情報

著者 Ioannis Kontogiorgakis,Iason Tsardanidis,Dimitrios Bormpoudakis,Ilias Tsoumas,Dimitra A. Loka,Christos Noulas,Alexandros Tsitouras,Charalampos Kontoes
発行日 2025-04-28 17:09:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Mapping of Weed Management Methods in Orchards using Sentinel-2 and PlanetScope Data はコメントを受け付けていません

Monitoring digestate application on agricultural crops using Sentinel-2 Satellite imagery

要約

農業における外因性の有機物の広範な使用は、土壌と作物の健康への影響を評価するためにモニタリングを必要とします。
この研究では、消化器系の肥沃度を高めるが、マイクロプラスチック汚染や窒素損失などの環境リスクをもたらす慣行である消化器系アプリケーションを検出するための光学センチネル-2衛星画像を評価します。
最初の例では、ギリシャのテッサリーの4つの異なる作物タイプの土壌に適用した後、EOMのスペクトル挙動を特徴付けるために、特定のインデックス(EOMI、NDVI、EVI)のSentinel-2衛星画像時系列(SITS)分析を使用しました。
さらに、機械学習(ML)モデル(つまり、ランダムフォレスト、K-NN、勾配ブースト、フィードフォワードニューラルネットワーク)を使用して、消化器の存在検出を調査し、最大0.85のF1スコアを達成しました。
この調査結果は、EOMアプリケーションのスケーラブルで費用対効果の高い監視のためにリモートセンシングとMLを組み合わせ、精密な農業と持続可能性をサポートする可能性を強調しています。

要約(オリジナル)

The widespread use of Exogenous Organic Matter in agriculture necessitates monitoring to assess its effects on soil and crop health. This study evaluates optical Sentinel-2 satellite imagery for detecting digestate application, a practice that enhances soil fertility but poses environmental risks like microplastic contamination and nitrogen losses. In the first instance, Sentinel-2 satellite image time series (SITS) analysis of specific indices (EOMI, NDVI, EVI) was used to characterize EOM’s spectral behavior after application on the soils of four different crop types in Thessaly, Greece. Furthermore, Machine Learning (ML) models (namely Random Forest, k-NN, Gradient Boosting and a Feed-Forward Neural Network), were used to investigate digestate presence detection, achieving F1-scores up to 0.85. The findings highlight the potential of combining remote sensing and ML for scalable and cost-effective monitoring of EOM applications, supporting precision agriculture and sustainability.

arxiv情報

著者 Andreas Kalogeras,Dimitrios Bormpoudakis,Iason Tsardanidis,Dimitra A. Loka,Charalampos Kontoes
発行日 2025-04-28 17:16:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Monitoring digestate application on agricultural crops using Sentinel-2 Satellite imagery はコメントを受け付けていません

Hybrid Video Anomaly Detection for Anomalous Scenarios in Autonomous Driving

要約

自律運転では、最も挑戦的なシナリオは、その時間的コンテキスト内でのみ検出できます。
ほとんどのビデオアノマリー検出は、自律運転のサブフィールドである監視または交通事故のいずれかに焦点を当てています。
HF $^2 $ -VAD $ _ {ad} $を提示します。これは、自律運転のためのHF $^2 $ -VAD監視ビデオ異常検出方法のバリエーションです。
車両のエゴの観点から正常性の表現を学び、まれで重要なシナリオでピクセルごとの異常検出を評価します。

要約(オリジナル)

In autonomous driving, the most challenging scenarios can only be detected within their temporal context. Most video anomaly detection approaches focus either on surveillance or traffic accidents, which are only a subfield of autonomous driving. We present HF$^2$-VAD$_{AD}$, a variation of the HF$^2$-VAD surveillance video anomaly detection method for autonomous driving. We learn a representation of normality from a vehicle’s ego perspective and evaluate pixel-wise anomaly detections in rare and critical scenarios.

arxiv情報

著者 Daniel Bogdoll,Jan Imhof,Tim Joseph,Svetlana Pavlitska,J. Marius Zöllner
発行日 2025-04-28 17:22:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Hybrid Video Anomaly Detection for Anomalous Scenarios in Autonomous Driving はコメントを受け付けていません