KAN See In the Dark

要約

既存の低光画像強化方法は、不均一な照明と騒音効果のために、通常と低光の画像の間の複雑な非線形関係に適合するのが困難です。
最近提案されたKolmogorov-Arnold Networks(KANS)は、非線形依存関係を効果的にキャプチャできるスプラインベースの畳み込み層と学習可能な活性化関数を特徴としています。
この論文では、Kansに基づいてKan-Blockを設計し、それを革新的に低光の画像強化に適用します。
この方法は、線形ネットワーク構造と解釈可能性の欠如によって制約されている現在の方法の制限を効果的に軽減し、低レベルの視覚タスクにおけるKANの可能性をさらに実証します。
現在の低光光画像強化方法の認識が不十分であり、逆拡散プロセスの確率的性質を考えると、視覚指向の強化のための周波数領域の知覚をさらに導入します。
広範な実験は、ベンチマークデータセットでの方法の競争力のあるパフォーマンスを示しています。
コードは、https://github.com/axning/ksid} {https://github.com/axning/ksidで入手できます。

要約(オリジナル)

Existing low-light image enhancement methods are difficult to fit the complex nonlinear relationship between normal and low-light images due to uneven illumination and noise effects. The recently proposed Kolmogorov-Arnold networks (KANs) feature spline-based convolutional layers and learnable activation functions, which can effectively capture nonlinear dependencies. In this paper, we design a KAN-Block based on KANs and innovatively apply it to low-light image enhancement. This method effectively alleviates the limitations of current methods constrained by linear network structures and lack of interpretability, further demonstrating the potential of KANs in low-level vision tasks. Given the poor perception of current low-light image enhancement methods and the stochastic nature of the inverse diffusion process, we further introduce frequency-domain perception for visually oriented enhancement. Extensive experiments demonstrate the competitive performance of our method on benchmark datasets. The code will be available at: https://github.com/AXNing/KSID}{https://github.com/AXNing/KSID.

arxiv情報

著者 Aoxiang Ning,Minglong Xue,Jinhong He,Chengyun Song
発行日 2025-02-06 14:34:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | KAN See In the Dark はコメントを受け付けていません

Adaptive Margin Contrastive Learning for Ambiguity-aware 3D Semantic Segmentation

要約

この論文では、3Dポイントクラウドセマンティックセグメンテーション、つまりAMContrast3Dの適応マージンコントラスト学習方法を提案します。
ほとんどの既存の方法では、ポイントあたりのあいまいさを無視し、遷移領域に起因する識別されない機能を無視する同様に罰せられた目標を使用します。
ただし、非常に曖昧なポイントは人間にとっても見分けがつかない可能性があるため、手動で注釈されたラベルは信頼性が低く、これらのポイントに対する困難な制約は最適なモデルにつながります。
これに対処するために、私たちは曖昧さレベルに基づいて個々のポイントの適応目標を設計し、高波路ポイントの間違いを許可しながら低波ポイントの正確性を確保することを目指しています。
具体的には、最初に位置の埋め込みに基づいてあいまいさを推定します。
次に、対照的な特徴の埋め込みのために決定境界をシフトするためのマージンジェネレーターを開発するため、極端な波状ポイントのマージンでさえも曖昧ささえ増加するため、マージンが狭くなります。
大規模なデータセットであるS3DISおよびSCANNETでの実験結果は、この方法が最新の方法よりも優れていることを示しています。

要約(オリジナル)

In this paper, we propose an adaptive margin contrastive learning method for 3D point cloud semantic segmentation, namely AMContrast3D. Most existing methods use equally penalized objectives, which ignore per-point ambiguities and less discriminated features stemming from transition regions. However, as highly ambiguous points may be indistinguishable even for humans, their manually annotated labels are less reliable, and hard constraints over these points would lead to sub-optimal models. To address this, we design adaptive objectives for individual points based on their ambiguity levels, aiming to ensure the correctness of low-ambiguity points while allowing mistakes for high-ambiguity points. Specifically, we first estimate ambiguities based on position embeddings. Then, we develop a margin generator to shift decision boundaries for contrastive feature embeddings, so margins are narrowed due to increasing ambiguities with even negative margins for extremely high-ambiguity points. Experimental results on large-scale datasets, S3DIS and ScanNet, demonstrate that our method outperforms state-of-the-art methods.

arxiv情報

著者 Yang Chen,Yueqi Duan,Runzhong Zhang,Yap-Peng Tan
発行日 2025-02-06 14:39:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Adaptive Margin Contrastive Learning for Ambiguity-aware 3D Semantic Segmentation はコメントを受け付けていません

Evaluating Numerical Reasoning in Text-to-Image Models

要約

テキストから画像への生成モデルは、自然言語を使用して記述されている概念を忠実に描写することが多い高品質の画像を作成できます。
この作業では、さまざまな難易度の数値推論タスクに関するさまざまなテキスト間モデルを包括的に評価し、最も高度なモデルでさえ初歩的な数値スキルしかないことを示します。
具体的には、画像内の正確な数のオブジェクトを正しく生成する能力は少数に制限されており、数の用語が表示されるコンテキストに大きく依存し、連続した数ごとに迅速に劣化します。
また、モデルは、言語数量(「少数」や「多く」など)、ゼロの概念など、部分量や分数表現などのより高度な概念と闘っていることを理解していないことを実証しています。
数値推論の評価のための新しいベンチマークであるGeckonumにプロンプ​​ト、生成された画像、および人間の注釈を束ねます。

要約(オリジナル)

Text-to-image generative models are capable of producing high-quality images that often faithfully depict concepts described using natural language. In this work, we comprehensively evaluate a range of text-to-image models on numerical reasoning tasks of varying difficulty, and show that even the most advanced models have only rudimentary numerical skills. Specifically, their ability to correctly generate an exact number of objects in an image is limited to small numbers, it is highly dependent on the context the number term appears in, and it deteriorates quickly with each successive number. We also demonstrate that models have poor understanding of linguistic quantifiers (such as ‘a few’ or ‘as many as’), the concept of zero, and struggle with more advanced concepts such as partial quantities and fractional representations. We bundle prompts, generated images and human annotations into GeckoNum, a novel benchmark for evaluation of numerical reasoning.

arxiv情報

著者 Ivana Kajić,Olivia Wiles,Isabela Albuquerque,Matthias Bauer,Su Wang,Jordi Pont-Tuset,Aida Nematzadeh
発行日 2025-02-06 14:42:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Evaluating Numerical Reasoning in Text-to-Image Models はコメントを受け付けていません

Generative Adversarial Networks Bridging Art and Machine Intelligence

要約

この本は、GANの基本原則と歴史的発展の詳細な紹介から始まり、伝統的な生成モデルと対照的であり、例示的なPythonの例を通じて核となる敵対的メカニズムを解明します。
このテキストは、GANトレーニングに固有の目的、損失関数、および最適化の課題を理解するための強固なフレームワークを提供する確率理論、統計、ゲーム理論を含む数学的および理論的基盤に体系的に対処します。
その後の章では、条件付きガン、DCGAN、インフォガン、ラプガンなどの古典的なバリエーションをレビューしてから、ワッサースタインガン、勾配ペナルティを備えたガン、最小二乗ガン、スペクトル正規化技術などの高度なトレーニング方法に進みます。
この本では、発電機と判別器におけるアーキテクチャの強化とタスク固有の適応をさらに検討し、高解像度の画像生成、芸術スタイルの転送、ビデオ統合、テキストから画像生成、その他のマルチメディアアプリケーションにおける実用的な実装を紹介します。
最後のセクションでは、自己触媒メカニズム、変圧器ベースの生成モデル、拡散モデルとの比較分析など、新たな研究動向に関する洞察を提供するため、学術的および応用設定の両方で将来の開発のための有望な方向性を示しています。

要約(オリジナル)

This book begins with a detailed introduction to the fundamental principles and historical development of GANs, contrasting them with traditional generative models and elucidating the core adversarial mechanisms through illustrative Python examples. The text systematically addresses the mathematical and theoretical underpinnings including probability theory, statistics, and game theory providing a solid framework for understanding the objectives, loss functions, and optimisation challenges inherent to GAN training. Subsequent chapters review classic variants such as Conditional GANs, DCGANs, InfoGAN, and LAPGAN before progressing to advanced training methodologies like Wasserstein GANs, GANs with gradient penalty, least squares GANs, and spectral normalisation techniques. The book further examines architectural enhancements and task-specific adaptations in generators and discriminators, showcasing practical implementations in high resolution image generation, artistic style transfer, video synthesis, text to image generation and other multimedia applications. The concluding sections offer insights into emerging research trends, including self-attention mechanisms, transformer-based generative models, and a comparative analysis with diffusion models, thus charting promising directions for future developments in both academic and applied settings.

arxiv情報

著者 Junhao Song,Yichao Zhang,Ziqian Bi,Tianyang Wang,Keyu Chen,Ming Li,Qian Niu,Junyu Liu,Benji Peng,Sen Zhang,Ming Liu,Jiawei Xu,Xuanhe Pan,Jinlang Wang,Pohsun Feng,Yizhu Wen,Lawrence K. Q. Yan,Hong-Ming Tseng,Xinyuan Song,Jintao Ren,Silin Chen,Yunze Wang,Weiche Hsieh,Bowen Jing,Junjie Yang,Jun Zhou,Zheyu Yao,Chia Xin Liang
発行日 2025-02-06 14:46:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Generative Adversarial Networks Bridging Art and Machine Intelligence はコメントを受け付けていません

MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm

要約

人間のモーション生成と編集は、コンピューターグラフィックとビジョンの重要なコンポーネントです。
ただし、この分野での現在のアプローチは、特定のタスクに合わせて調整された孤立したソリューションを提供する傾向があります。これは、実際のアプリケーションでは非効率的で非実用的です。
いくつかの努力がモーション関連のタスクを統合することを目的としていますが、これらの方法は、モーション生成を導くために条件として異なるモダリティを使用するだけです。
その結果、編集機能がなく、細かい制御がなく、タスク全体の知識共有を促進できません。
これらの制限に対処し、人間の動きの生成と編集の両方を処理できる多用途の統一されたフレームワークを提供するために、新しいパラダイム:モーションコンディションモーションを紹介します。
ターゲットモーション。
このパラダイムに基づいて、指定された条件に導かれたソースモーションからターゲットモーションへのマッピングを学習するために整流されたフローを組み込んだ統一されたフレームワークであるMotionLabを提案します。
MotionLabでは、1)MotionFlowトランスを導入して、タスク固有のモジュールなしで条件付き生成と編集を強化します。
2)アラインされた回転位置エンコード}}ソースの動きとターゲットの動きの間の時間同期を保証する。
3)タスク指定命令変調。
4)タスク全体で効果的なマルチタスク学習と知識の共有のためのモーションカリキュラム学習。
特に、私たちのMotionLabは、人間の動きのための複数のベンチマークにわたって有望な一般化能力と推論効率を示しています。
コードと追加のビデオ結果は、https://diouo.github.io/motionlab.github.io/で入手できます。

要約(オリジナル)

Human motion generation and editing are key components of computer graphics and vision. However, current approaches in this field tend to offer isolated solutions tailored to specific tasks, which can be inefficient and impractical for real-world applications. While some efforts have aimed to unify motion-related tasks, these methods simply use different modalities as conditions to guide motion generation. Consequently, they lack editing capabilities, fine-grained control, and fail to facilitate knowledge sharing across tasks. To address these limitations and provide a versatile, unified framework capable of handling both human motion generation and editing, we introduce a novel paradigm: Motion-Condition-Motion, which enables the unified formulation of diverse tasks with three concepts: source motion, condition, and target motion. Based on this paradigm, we propose a unified framework, MotionLab, which incorporates rectified flows to learn the mapping from source motion to target motion, guided by the specified conditions. In MotionLab, we introduce the 1) MotionFlow Transformer to enhance conditional generation and editing without task-specific modules; 2) Aligned Rotational Position Encoding} to guarantee the time synchronization between source motion and target motion; 3) Task Specified Instruction Modulation; and 4) Motion Curriculum Learning for effective multi-task learning and knowledge sharing across tasks. Notably, our MotionLab demonstrates promising generalization capabilities and inference efficiency across multiple benchmarks for human motion. Our code and additional video results are available at: https://diouo.github.io/motionlab.github.io/.

arxiv情報

著者 Ziyan Guo,Zeyu Hu,Na Zhao,De Wen Soh
発行日 2025-02-06 15:03:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm はコメントを受け付けていません

Beyond the Final Layer: Hierarchical Query Fusion Transformer with Agent-Interpolation Initialization for 3D Instance Segmentation

要約

3Dインスタンスセグメンテーションは、シーン内のオブジェクトインスタンスのセットを予測し、対応するセマンティックラベルを持つバイナリフォアグラウンドマスクとして表すことを目的としています。
現在、トランスベースの方法は、エレガントなパイプライン、幾何学的特性の手動選択の減少、および優れた性能により、注目を集めています。
ただし、トランスベースのメソッドは、クエリの初期化中に強力な位置とコンテンツ情報を同時に維持できません。
さらに、各デコーダーレイヤーでの監督のため、レイヤーの深化によりオブジェクトの消失の現象が存在します。
これらのハードルを克服するために、3Dインスタンスセグメンテーション(BFL)のエージェントインターポーゼーション初期化を備えた階層クエリフュージョントランスを超えて紹介します。
具体的には、エージェントインターの初期化モジュールは、前景のカバレッジとコンテンツ学習のバランスをとることができる回復力のあるクエリを生成するように設計されています。
さらに、階層クエリフュージョンデコーダーは、オーバーラップクエリが低く保持するように設計されており、レイヤーの深化によるリコールの減少を軽減します。
scannetv2、scannet200、scannet ++、およびs3disデータセットでの広範な実験は、BFLの優れた性能を示しています。

要約(オリジナル)

3D instance segmentation aims to predict a set of object instances in a scene and represent them as binary foreground masks with corresponding semantic labels. Currently, transformer-based methods are gaining increasing attention due to their elegant pipelines, reduced manual selection of geometric properties, and superior performance. However, transformer-based methods fail to simultaneously maintain strong position and content information during query initialization. Additionally, due to supervision at each decoder layer, there exists a phenomenon of object disappearance with the deepening of layers. To overcome these hurdles, we introduce Beyond the Final Layer: Hierarchical Query Fusion Transformer with Agent-Interpolation Initialization for 3D Instance Segmentation (BFL). Specifically, an Agent-Interpolation Initialization Module is designed to generate resilient queries capable of achieving a balance between foreground coverage and content learning. Additionally, a Hierarchical Query Fusion Decoder is designed to retain low overlap queries, mitigating the decrease in recall with the deepening of layers. Extensive experiments on ScanNetV2, ScanNet200, ScanNet++ and S3DIS datasets demonstrate the superior performance of BFL.

arxiv情報

著者 Jiahao Lu,Jiacheng Deng,Tianzhu Zhang
発行日 2025-02-06 15:19:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Beyond the Final Layer: Hierarchical Query Fusion Transformer with Agent-Interpolation Initialization for 3D Instance Segmentation はコメントを受け付けていません

HD-EPIC: A Highly-Detailed Egocentric Video Dataset

要約

新しく収集されたキッチンベースのエゴセントリックビデオの検証データセットを提示します。これは、レシピの手順、栄養価を備えた成分、移動オブジェクト、オーディオ注釈をカバーする、非常に詳細で相互接続されたグラウンドトゥルースラベルを手動で注釈を付けます。
重要なことに、すべての注釈は、シーンのデジタルツインニング、フィクスチャー、オブジェクトの位置、および視線でプライミングされた3Dに根ざしています。
映像は、多様なホーム環境でのスクリプト化されていない録画から収集され、HDEPICは最初のデータセットとなっていますが、詳細な注釈は制御されたラボ環境のものと一致しています。
レシピ、成分、栄養、微細なアクション、3D知覚、オブジェクトの動き、視線の方向を認識する能力を評価する26kの質問の挑戦的なVQAベンチマークを通じて、高度に控えめな注釈の可能性を示します。
強力なロングコンテストのジェミニプロは、このベンチマークで38.5%のみを達成し、その難しさを紹介し、現在のVLMの欠点を強調しています。
さらに、HD-EPICでのアクション認識、健全な認識、および長期のビデオオブジェクトセグメンテーションを評価します。
HD-EPICは、413のキッチンフィクスチャのデジタルツインを備えた9つのキッチンで41時間のビデオであり、69のレシピ、59kの細かいアクション、51Kオーディオイベント、20Kオブジェクトの動き、37Kオブジェクトマスクを3Dに持ち上げます。
平均して、スクリプト化されていないビデオの1分あたり263の注釈があります。

要約(オリジナル)

We present a validation dataset of newly-collected kitchen-based egocentric videos, manually annotated with highly detailed and interconnected ground-truth labels covering: recipe steps, fine-grained actions, ingredients with nutritional values, moving objects, and audio annotations. Importantly, all annotations are grounded in 3D through digital twinning of the scene, fixtures, object locations, and primed with gaze. Footage is collected from unscripted recordings in diverse home environments, making HDEPIC the first dataset collected in-the-wild but with detailed annotations matching those in controlled lab environments. We show the potential of our highly-detailed annotations through a challenging VQA benchmark of 26K questions assessing the capability to recognise recipes, ingredients, nutrition, fine-grained actions, 3D perception, object motion, and gaze direction. The powerful long-context Gemini Pro only achieves 38.5% on this benchmark, showcasing its difficulty and highlighting shortcomings in current VLMs. We additionally assess action recognition, sound recognition, and long-term video-object segmentation on HD-EPIC. HD-EPIC is 41 hours of video in 9 kitchens with digital twins of 413 kitchen fixtures, capturing 69 recipes, 59K fine-grained actions, 51K audio events, 20K object movements and 37K object masks lifted to 3D. On average, we have 263 annotations per minute of our unscripted videos.

arxiv情報

著者 Toby Perrett,Ahmad Darkhalil,Saptarshi Sinha,Omar Emara,Sam Pollard,Kranti Parida,Kaiting Liu,Prajwal Gatti,Siddhant Bansal,Kevin Flanagan,Jacob Chalk,Zhifan Zhu,Rhodri Guerrier,Fahd Abdelazim,Bin Zhu,Davide Moltisanti,Michael Wray,Hazel Doughty,Dima Damen
発行日 2025-02-06 15:25:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HD-EPIC: A Highly-Detailed Egocentric Video Dataset はコメントを受け付けていません

YOLOv4: A Breakthrough in Real-Time Object Detection

要約

Yolov4は、DarkNetフレームワークを使用して回帰(境界ボックスの位置付け)と分類(オブジェクトクラス識別)のための高度な手法を組み合わせることにより、COCOデータセットで最高のパフォーマンスを達成しました。
精度と適応性を向上させるために、クロスミニバッチの正規化、クロスステージ特殊接続、自己副産物トレーニング、加重抵抗性接続、およびCIOU損失、モザイクデータの増強、ドロップブロックの正則化を採用しています。
モザイクの増強とマルチ解像度トレーニングにより、Yolov4は多様なシナリオで優れた検出を達成し、テスラV100で43.5 \%AP(対照的に65.7 \%AP50)を達成し、効率、手頃な価格、適応性を確保します。
実世界の環境。

要約(オリジナル)

YOLOv4 achieved the best performance on the COCO dataset by combining advanced techniques for regression (bounding box positioning) and classification (object class identification) using the Darknet framework. To enhance accuracy and adaptability, it employs Cross mini-Batch Normalization, Cross-Stage-Partial-connections, Self-Adversarial-Training, and Weighted-Residual-Connections, as well as CIoU loss, Mosaic data augmentation, and DropBlock regularization. With Mosaic augmentation and multi-resolution training, YOLOv4 achieves superior detection in diverse scenarios, attaining 43.5\% AP (in contrast, 65.7\% AP50) on a Tesla V100 at ~65 frames per second, ensuring efficiency, affordability, and adaptability for real-world environments.

arxiv情報

著者 Athulya Sundaresan Geetha
発行日 2025-02-06 15:45:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | YOLOv4: A Breakthrough in Real-Time Object Detection はコメントを受け付けていません

Expanding Training Data for Endoscopic Phenotyping of Eosinophilic Esophagitis

要約

好酸球性食道炎(EOE)は、好酸球が支配する炎症が特徴の慢性食道障害です。
EOEの診断には、通常、食道粘膜の内視鏡検査と組織学的確認のために食道生検を取得することが含まれます。
最近の進歩により、EREFSシステムに導かれたAIアシスト内視鏡イメージングは​​、侵襲的組織学的評価への依存を減らすための潜在的な代替手段として浮上しています。
これらの進歩にもかかわらず、AIモデルをトレーニングするためのデータの入手可能性が限られているため、重要な課題が続いています。これは、より一般的な疾患のためのAIの開発においても一般的な問題です。
この研究では、オンラインプラットフォーム、パブリックデータセット、電子教科書からの多様な画像セットでトレーニングデータを増強することにより、ディープラーニングベースのEOE表現型分類のパフォーマンスを改善しようとしています。
画像分類のためにデータ効率の高い画像変圧器を利用し、注意マップの視覚化を組み込み、解釈可能性を高めました。
調査結果は、拡張されたデータセットとモデルの強化により、診断精度、堅牢性、包括的な分析が改善され、患者の転帰が向上することを示しています。

要約(オリジナル)

Eosinophilic esophagitis (EoE) is a chronic esophageal disorder marked by eosinophil-dominated inflammation. Diagnosing EoE usually involves endoscopic inspection of the esophageal mucosa and obtaining esophageal biopsies for histologic confirmation. Recent advances have seen AI-assisted endoscopic imaging, guided by the EREFS system, emerge as a potential alternative to reduce reliance on invasive histological assessments. Despite these advancements, significant challenges persist due to the limited availability of data for training AI models – a common issue even in the development of AI for more prevalent diseases. This study seeks to improve the performance of deep learning-based EoE phenotype classification by augmenting our training data with a diverse set of images from online platforms, public datasets, and electronic textbooks increasing our dataset from 435 to 7050 images. We utilized the Data-efficient Image Transformer for image classification and incorporated attention map visualizations to boost interpretability. The findings show that our expanded dataset and model enhancements improved diagnostic accuracy, robustness, and comprehensive analysis, enhancing patient outcomes.

arxiv情報

著者 Juming Xiong,Hou Xiong,Quan Liu,Ruining Deng,Regina N Tyree,Girish Hiremath,Yuankai Huo
発行日 2025-02-06 16:38:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Expanding Training Data for Endoscopic Phenotyping of Eosinophilic Esophagitis はコメントを受け付けていません

Safeguarding connected autonomous vehicle communication: Protocols, intra- and inter-vehicular attacks and defenses

要約

自律運転技術の進歩は、自動車メーカーやハイテク企業からの関心の高まりと相まって、近い将来に接続された自律車(CAVS)の採用の増加を示唆しています。
AVSの事故率が高いという証拠にもかかわらず、これらの事件は、協力的な安全対策による従来の車両と比較して、重傷を負う傾向があります。
ただし、CAVシステムの複雑さの増加により、それらは重大なセキュリティの脆弱性にさらされ、パフォーマンスとコミュニケーションの完全性を損なう可能性があります。
このホワイトペーパーは、既存のセキュリティフレームワークとプロトコルの詳細な分析を提示し、車内および局間通信に焦点を当てて貢献します。
既知の脆弱性に対処する際のこれらのフレームワークの有効性を体系的に評価し、CAVコミュニケーションセキュリティを強化するための一連のベストプラクティスを提案します。
このペーパーは、CAVエコシステムにおける攻撃ベクトルの包括的な分類法を提供し、より堅牢なセキュリティメカニズムを設計するための将来の研究の方向性を示唆しています。
私たちの重要な貢献には、CAVセキュリティの脅威に関する新しい分類システムの開発、実用的なセキュリティプロトコルの提案、およびこれらのプロトコルを実際のCAVアプリケーションに統合する方法を示すユースケースの導入が含まれます。
これらの洞察は、安全なCAV採用を進め、自動運転車のインテリジェントな輸送システムへの安全な統合を確保するために重要です。

要約(オリジナル)

The advancements in autonomous driving technology, coupled with the growing interest from automotive manufacturers and tech companies, suggest a rising adoption of Connected Autonomous Vehicles (CAVs) in the near future. Despite some evidence of higher accident rates in AVs, these incidents tend to result in less severe injuries compared to traditional vehicles due to cooperative safety measures. However, the increased complexity of CAV systems exposes them to significant security vulnerabilities, potentially compromising their performance and communication integrity. This paper contributes by presenting a detailed analysis of existing security frameworks and protocols, focusing on intra- and inter-vehicle communications. We systematically evaluate the effectiveness of these frameworks in addressing known vulnerabilities and propose a set of best practices for enhancing CAV communication security. The paper also provides a comprehensive taxonomy of attack vectors in CAV ecosystems and suggests future research directions for designing more robust security mechanisms. Our key contributions include the development of a new classification system for CAV security threats, the proposal of practical security protocols, and the introduction of use cases that demonstrate how these protocols can be integrated into real-world CAV applications. These insights are crucial for advancing secure CAV adoption and ensuring the safe integration of autonomous vehicles into intelligent transportation systems.

arxiv情報

著者 Mohammed Aledhari,Rehma Razzak,Mohamed Rahouti,Abbas Yazdinejad,Reza M. Parizi,Basheer Qolomany,Mohsen Guizani,Junaid Qadir,Ala Al-Fuqaha
発行日 2025-02-06 16:43:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.NI | Safeguarding connected autonomous vehicle communication: Protocols, intra- and inter-vehicular attacks and defenses はコメントを受け付けていません