When do they StOP?: A First Step Towards Automatically Identifying Team Communication in the Operating Room

要約

目的:外科的パフォーマンスは、外科医の技術的スキルだけでなく、手術中に存在するさまざまな専門家グループ内および全体のチームコミュニケーションにも依存します。
したがって、ORでのチームコミュニケーションを自動的に特定することは、患者の安全性とコンピューター支援の外科的ワークフロー分析と術中サポートシステムの開発における進歩に重要です。
最初の一歩を踏み出すために、すべてまたはチームメンバーが関与するコミュニケーションブリーフィング、つまりチームのタイムアウトとストップ? – プロトコルを検出する新しいタスクを提案します。
方法:Team-ORと呼ばれる実際の手術のデータセットを生成し、ORのマルチビューカメラシステムによってキャプチャされた100時間以上の手術ビデオを使用します。
データセットには、33のタイムアウトと22の停止の時間的注釈が含まれています。
次に、シーンのコンテキストとアクション機能の両方をエンコードし、効率的なニューラルネットワークモデルを使用して結果を出力する新しいグループアクティビティ検出アプローチを提案します。
結果:チームまたはデータセットの実験結果は、このアプローチが既存の最先端の時間的アクション検出アプローチを上回ることを示しています。
また、ORのグループ活動に関する研究の欠如も示しており、データセットの重要性を証明しています。
結論:チームのタイムアウトと停止を調査しますか? – またはデータセットにグループアクティビティプロトコルの時間的注釈を提示し、既存のアプローチを上回る新しいグループアクティビティ検出アプローチを導入します。
コードはhttps://github.com/camma-public/team-orで入手できます。

要約(オリジナル)

Purpose: Surgical performance depends not only on surgeons’ technical skills but also on team communication within and across the different professional groups present during the operation. Therefore, automatically identifying team communication in the OR is crucial for patient safety and advances in the development of computer-assisted surgical workflow analysis and intra-operative support systems. To take the first step, we propose a new task of detecting communication briefings involving all OR team members, i.e. the team Time-out and the StOP?-protocol, by localizing their start and end times in video recordings of surgical operations. Methods: We generate an OR dataset of real surgeries, called Team-OR, with more than one hundred hours of surgical videos captured by the multi-view camera system in the OR. The dataset contains temporal annotations of 33 Time-out and 22 StOP?-protocol activities in total. We then propose a novel group activity detection approach, where we encode both scene context and action features, and use an efficient neural network model to output the results. Results: The experimental results on the Team-OR dataset show that our approach outperforms existing state-of-the-art temporal action detection approaches. It also demonstrates the lack of research on group activities in the OR, proving the significance of our dataset. Conclusion: We investigate the Team Time-Out and the StOP?-protocol in the OR, by presenting the first OR dataset with temporal annotations of group activities protocols, and introducing a novel group activity detection approach that outperforms existing approaches. Code is available at https://github.com/CAMMA-public/Team-OR .

arxiv情報

著者 Keqi Chen,Lilien Schewski,Vinkle Srivastav,Joël Lavanchy,Didier Mutter,Guido Beldi,Sandra Keller,Nicolas Padoy
発行日 2025-02-12 10:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | When do they StOP?: A First Step Towards Automatically Identifying Team Communication in the Operating Room はコメントを受け付けていません

VIPeR: Visual Incremental Place Recognition with Adaptive Mining and Continual Learning

要約

Visual Place認識(VPR)は、多くの自律的および拡張/仮想現実システムの重要なコンポーネントです。
これにより、システムは大規模な環境で自分自身を堅牢にローカライズできます。
既存のVPRメソッドは、トレーニング前の重いコストと限られた一般化可能性を犠牲にして魅力的なパフォーマンスを示しています。
目に見えない環境に展開されると、これらの方法は大幅なパフォーマンスドロップを示します。
この問題をターゲットにして、以前の環境のパフォーマンスを維持しながら新しい環境に適応する能力を備えた視覚的漸進的な場所認識のための新しいアプローチであるViperを提示します。
最初に、単一の環境内のパフォーマンスと複数の環境にわたる一般化可能性のバランスをとる適応マイニング戦略を紹介します。
次に、生涯学習における壊滅的な忘却を防ぐために、私たちは人間の記憶システムからインスピレーションを引き出し、バイパーのための新しい記憶バンクを設計します。
私たちのメモリバンクには、感覚メモリ、作業記憶、長期記憶が含まれており、最初の2つは現在の環境に焦点を当て、以前に訪問したすべての環境の最後の環境に焦点を当てています。
さらに、以前に学んだ知識を明示的に保護するために、確率的知識の蒸留を提案します。
提案されたViperを3つの大規模なデータセット、つまりOxford Robotcar、Nordland、およびTartanairで評価します。
比較のために、最初に素朴なFinetuningでベースラインパフォーマンスを設定しました。
次に、最近の生涯学習方法をいくつか比較します。
私たちのViperは、ほぼすべての側面でより良いパフォーマンスを達成し、平均パフォーマンスで13.65%の最大の改善があります。

要約(オリジナル)

Visual place recognition (VPR) is an essential component of many autonomous and augmented/virtual reality systems. It enables the systems to robustly localize themselves in large-scale environments. Existing VPR methods demonstrate attractive performance at the cost of heavy pre-training and limited generalizability. When deployed in unseen environments, these methods exhibit significant performance drops. Targeting this issue, we present VIPeR, a novel approach for visual incremental place recognition with the ability to adapt to new environments while retaining the performance of previous environments. We first introduce an adaptive mining strategy that balances the performance within a single environment and the generalizability across multiple environments. Then, to prevent catastrophic forgetting in lifelong learning, we draw inspiration from human memory systems and design a novel memory bank for our VIPeR. Our memory bank contains a sensory memory, a working memory and a long-term memory, with the first two focusing on the current environment and the last one for all previously visited environments. Additionally, we propose a probabilistic knowledge distillation to explicitly safeguard the previously learned knowledge. We evaluate our proposed VIPeR on three large-scale datasets, namely Oxford Robotcar, Nordland, and TartanAir. For comparison, we first set a baseline performance with naive finetuning. Then, several more recent lifelong learning methods are compared. Our VIPeR achieves better performance in almost all aspects with the biggest improvement of 13.65% in average performance.

arxiv情報

著者 Yuhang Ming,Minyang Xu,Xingrui Yang,Weicai Ye,Weihan Wang,Yong Peng,Weichen Dai,Wanzeng Kong
発行日 2025-02-12 11:15:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | VIPeR: Visual Incremental Place Recognition with Adaptive Mining and Continual Learning はコメントを受け付けていません

Similarity and Quality Metrics for MR Image-To-Image Translation

要約

画像から画像への翻訳は、画像を他のモダリティ、シーケンスタイプ、より高い解像度、または低いノイズレベルに合成的に変換できるため、医療画像に大きな影響を与える可能性があります。
患者の安全性を確保するために、これらの方法は人間の読者によって検証されるべきです。これにはかなりの時間とコストが必要です。
定量的メトリックは、そのような研究を効果的に補完し、合成画像の再現性と客観的な評価を提供できます。
参照が利用可能な場合、MR画像の類似性は、特定の歪みに関してこれらのメトリックが敏感ではない場合でも、SSIMおよびPSNRメトリックによって頻繁に評価されます。
比較する参照画像が利用できない場合、非参照品質メトリックは、ぼやけなどの特定の歪みを確実に検出できます。
歪み感度の概要を提供するために、合成画像を評価するための11の類似性(参照)および12の品質(非参照)メトリックを定量的に分析します。
さらに、下流のセグメンテーションタスクにメトリックを含めます。
11種類の歪みと典型的なMRアーティファクトに関する感度を調査し、各メトリックと歪みに対する異なる正規化方法の影響を分析します。
最後に、画像間翻訳モデルの評価のための分析された類似性と品質メトリックの効果的な使用に関する推奨事項を導き出します。

要約(オリジナル)

Image-to-image translation can create large impact in medical imaging, as images can be synthetically transformed to other modalities, sequence types, higher resolutions or lower noise levels. To ensure patient safety, these methods should be validated by human readers, which requires a considerable amount of time and costs. Quantitative metrics can effectively complement such studies and provide reproducible and objective assessment of synthetic images. If a reference is available, the similarity of MR images is frequently evaluated by SSIM and PSNR metrics, even though these metrics are not or too sensitive regarding specific distortions. When reference images to compare with are not available, non-reference quality metrics can reliably detect specific distortions, such as blurriness. To provide an overview on distortion sensitivity, we quantitatively analyze 11 similarity (reference) and 12 quality (non-reference) metrics for assessing synthetic images. We additionally include a metric on a downstream segmentation task. We investigate the sensitivity regarding 11 kinds of distortions and typical MR artifacts, and analyze the influence of different normalization methods on each metric and distortion. Finally, we derive recommendations for effective usage of the analyzed similarity and quality metrics for evaluation of image-to-image translation models.

arxiv情報

著者 Melanie Dohmen,Mark A. Klemens,Ivo M. Baltruschat,Tuan Truong,Matthias Lenga
発行日 2025-02-12 11:21:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Similarity and Quality Metrics for MR Image-To-Image Translation はコメントを受け付けていません

Mitigating Hallucinations in Multimodal Spatial Relations through Constraint-Aware Prompting

要約

空間的関係の幻覚は、大きな視覚言語モデル(LVLMS)で永続的な課題をもたらし、画像内のオブジェクトの位置と空間構成に関する誤った予測を生成します。
この問題に対処するために、空間的関係の幻覚を減らすために設計された制約対応プロンプトフレームワークを提案します。
具体的には、2つのタイプの制約を導入します。(1)ペアワイズオブジェクト関係の一貫性を保証する双方向制約と(2)複数のオブジェクトにわたってリレーショナル依存性を施行するトランジテーション制約。
これらの制約を組み込むことにより、LVLMSはより空間的に一貫性のある一貫した出力を生成できます。
広く使用されている3つの空間関係データセットでの方法を評価し、既存のアプローチに対するパフォーマンスの改善を示します。
さらに、さまざまな双方向関係分析の選択肢とトランジテーション参照選択の体系的な分析は、空間関係の幻覚を緩和するための制約を組み込む際の方法のより大きな可能性を強調しています。

要約(オリジナル)

Spatial relation hallucinations pose a persistent challenge in large vision-language models (LVLMs), leading to generate incorrect predictions about object positions and spatial configurations within an image. To address this issue, we propose a constraint-aware prompting framework designed to reduce spatial relation hallucinations. Specifically, we introduce two types of constraints: (1) bidirectional constraint, which ensures consistency in pairwise object relations, and (2) transitivity constraint, which enforces relational dependence across multiple objects. By incorporating these constraints, LVLMs can produce more spatially coherent and consistent outputs. We evaluate our method on three widely-used spatial relation datasets, demonstrating performance improvements over existing approaches. Additionally, a systematic analysis of various bidirectional relation analysis choices and transitivity reference selections highlights greater possibilities of our methods in incorporating constraints to mitigate spatial relation hallucinations.

arxiv情報

著者 Jiarui Wu,Zhuo Liu,Hangfeng He
発行日 2025-02-12 11:32:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Mitigating Hallucinations in Multimodal Spatial Relations through Constraint-Aware Prompting はコメントを受け付けていません

Screener: Self-supervised Pathology Segmentation Model for 3D Medical Images

要約

3D医療画像におけるすべての病理学的所見の正確なセグメンテーションは、既存のデータセットで注釈が付けられたいくつかの病理学クラスのみを検出することに限定されているため、3D医療画像におけるすべての病理学的所見の正確なセグメンテーションのままです。
これに対処するために、病理のセグメンテーションを、監視されていない視覚的異常セグメンテーション(UVAS)問題としてフレーム化し、健康なパターンと比較して病理学的パターンの固有の希少性を活用します。
2つの重要なイノベーションを備えた既存の密度ベースのUVASフレームワークを強化します。(1)特徴抽出のための密度の高い自己監視学習(SSL)、監視前のトレーニングの必要性を排除し、(2)学習し、学習し、マスキングに不均一な密な特徴として
手作りの位置エンコーディングを置き換えるコンディショニング変数。
30,000を超える非標識3D CTボリュームでトレーニングされたモデル、スクリーナーは、多様な病理を伴う1,820のスキャンを含む4つの大規模なテストデータセットで既存のUVASメソッドを上回ります。
コードと事前に訓練されたモデルが公開されます。

要約(オリジナル)

Accurate segmentation of all pathological findings in 3D medical images remains a significant challenge, as supervised models are limited to detecting only the few pathology classes annotated in existing datasets. To address this, we frame pathology segmentation as an unsupervised visual anomaly segmentation (UVAS) problem, leveraging the inherent rarity of pathological patterns compared to healthy ones. We enhance the existing density-based UVAS framework with two key innovations: (1) dense self-supervised learning (SSL) for feature extraction, eliminating the need for supervised pre-training, and (2) learned, masking-invariant dense features as conditioning variables, replacing hand-crafted positional encodings. Trained on over 30,000 unlabeled 3D CT volumes, our model, Screener, outperforms existing UVAS methods on four large-scale test datasets comprising 1,820 scans with diverse pathologies. Code and pre-trained models will be made publicly available.

arxiv情報

著者 Mikhail Goncharov,Eugenia Soboleva,Mariia Donskova,Ivan Oseledets,Marina Munkhoeva,Maxim Panov
発行日 2025-02-12 11:37:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Screener: Self-supervised Pathology Segmentation Model for 3D Medical Images はコメントを受け付けていません

Foundation Models in Computational Pathology: A Review of Challenges, Opportunities, and Impact

要約

自己監視のビジョン専用モデルから対照的な視覚言語フレームワークまで、計算病理学は近年急速に進化しています。
生成AI ‘Co-Pilots’は、細胞から病理のスペクトル全体に微妙な視聴覚組織の手がかりを採掘し、包括的なレポートを生成し、複雑なユーザークエリに応答する能力を示しています。
データのスケールは劇的に急増し、数十から数百万のマルチギガピクセルの組織画像に成長していますが、これらのモデルの訓練可能なパラメーターの数は数十億に増加しています。
重要な問題は残っています。生成的で多目的AIのこの新しい波は、臨床診断をどのように変換しますか?
この記事では、これらの革新の真の可能性と臨床診療への統合を探ります。
病理学における基礎モデルの急速な進歩をレビューし、それらのアプリケーションと重要性を明確にします。
より正確には、基礎モデルの定義そのものを調べ、基礎、一般、または多目的にするものを特定し、計算病理への影響を評価します。
さらに、開発と評価に関連する独自の課題に対処します。
これらのモデルは、例外的な予測機能と生成機能を実証していますが、評価基準を強化し、広範囲にわたる臨床採用を促進するためには、グローバルなベンチマークを確立することが重要です。
計算病理学では、フロンティアAIのより広い影響は、最終的に広範な採用と社会的受け入れに依存しています。
直接的な公共の暴露は厳密に必要ではありませんが、誤解を払拭し、信頼を築き、規制支援を確保するための強力なツールのままです。

要約(オリジナル)

From self-supervised, vision-only models to contrastive visual-language frameworks, computational pathology has rapidly evolved in recent years. Generative AI ‘co-pilots’ now demonstrate the ability to mine subtle, sub-visual tissue cues across the cellular-to-pathology spectrum, generate comprehensive reports, and respond to complex user queries. The scale of data has surged dramatically, growing from tens to millions of multi-gigapixel tissue images, while the number of trainable parameters in these models has risen to several billion. The critical question remains: how will this new wave of generative and multi-purpose AI transform clinical diagnostics? In this article, we explore the true potential of these innovations and their integration into clinical practice. We review the rapid progress of foundation models in pathology, clarify their applications and significance. More precisely, we examine the very definition of foundational models, identifying what makes them foundational, general, or multipurpose, and assess their impact on computational pathology. Additionally, we address the unique challenges associated with their development and evaluation. These models have demonstrated exceptional predictive and generative capabilities, but establishing global benchmarks is crucial to enhancing evaluation standards and fostering their widespread clinical adoption. In computational pathology, the broader impact of frontier AI ultimately depends on widespread adoption and societal acceptance. While direct public exposure is not strictly necessary, it remains a powerful tool for dispelling misconceptions, building trust, and securing regulatory support.

arxiv情報

著者 Mohsin Bilal,Aadam,Manahil Raza,Youssef Altherwy,Anas Alsuhaibani,Abdulrahman Abduljabbar,Fahdah Almarshad,Paul Golding,Nasir Rajpoot
発行日 2025-02-12 11:57:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Foundation Models in Computational Pathology: A Review of Challenges, Opportunities, and Impact はコメントを受け付けていません

Hi-End-MAE: Hierarchical encoder-driven masked autoencoders are stronger vision learners for medical image segmentation

要約

医療画像のセグメンテーションは、ラベルの希少性のために恐ろしい課題のままです。
大規模な非標識医療データセットのマスクイメージモデリング(MIM)を介したトレーニング前の視覚変圧器(VIT)は、さまざまなダウンストリームタスクの計算効率とモデル一般化の両方を提供する有望なソリューションを提供します。
ただし、現在のVITベースのMIM前訓練フレームワークは、出力層の局所集約表現を主に強調し、より正確な医療下流タスクに必要な細粒の意味情報をよりよくキャプチャするさまざまなVIT層にわたって豊富な表現を活用できません。
上記のギャップを埋めるために、ここで、2つの主要なイノベーションを中心とするシンプルで効果的なVITベースのプリトレーニングソリューションである階層エンコーダー駆動型のMAE(Hi-end-Mae)を提示します。(1)エンコーダー駆動型再構築、
エンコーダーに、マスクされたパッチの再構築をガイドするためのより有益な機能を学習するよう奨励します。
(2)階層的なデコード。これは、階層的なデコード構造を実装して、異なる層にわたって豊富な表現をキャプチャします。
10K CTスキャンの大規模なデータセットでハイエンドMAEを事前に訓練し、7つの公共の医療画像セグメンテーションベンチマークでそのパフォーマンスを評価しました。
広範な実験は、Hi-End-Maeがさまざまな下流タスクにわたって優れた転送学習機能を達成し、医療イメージングアプリケーションにおけるVITの可能性を明らかにすることを示しています。
このコードは、https://github.com/fenghetan9/hi-end-maeで入手できます

要約(オリジナル)

Medical image segmentation remains a formidable challenge due to the label scarcity. Pre-training Vision Transformer (ViT) through masked image modeling (MIM) on large-scale unlabeled medical datasets presents a promising solution, providing both computational efficiency and model generalization for various downstream tasks. However, current ViT-based MIM pre-training frameworks predominantly emphasize local aggregation representations in output layers and fail to exploit the rich representations across different ViT layers that better capture fine-grained semantic information needed for more precise medical downstream tasks. To fill the above gap, we hereby present Hierarchical Encoder-driven MAE (Hi-End-MAE), a simple yet effective ViT-based pre-training solution, which centers on two key innovations: (1) Encoder-driven reconstruction, which encourages the encoder to learn more informative features to guide the reconstruction of masked patches; and (2) Hierarchical dense decoding, which implements a hierarchical decoding structure to capture rich representations across different layers. We pre-train Hi-End-MAE on a large-scale dataset of 10K CT scans and evaluated its performance across seven public medical image segmentation benchmarks. Extensive experiments demonstrate that Hi-End-MAE achieves superior transfer learning capabilities across various downstream tasks, revealing the potential of ViT in medical imaging applications. The code is available at: https://github.com/FengheTan9/Hi-End-MAE

arxiv情報

著者 Fenghe Tang,Qingsong Yao,Wenxin Ma,Chenxu Wu,Zihang Jiang,S. Kevin Zhou
発行日 2025-02-12 12:14:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Hi-End-MAE: Hierarchical encoder-driven masked autoencoders are stronger vision learners for medical image segmentation はコメントを受け付けていません

Sat-DN: Implicit Surface Reconstruction from Multi-View Satellite Images with Depth and Normal Supervision

要約

衛星イメージングテクノロジーの進歩により、高解像度のマルチビュー衛星画像を取得することがますますアクセスしやすくなり、迅速かつ場所に依存しない地形モデルの再構築が可能になりました。
ただし、従来のステレオマッチング方法は細かい詳細をキャプチャするのに苦労しており、ニューラル放射輝度フィールド(NERF)が高品質の再構成を達成している間、トレーニング時間は非常に長いです。
さらに、ファサードの建物の視認性の低さ、ピクセル間の照明とスタイルの違い、および衛星画像の弱いテクスチャの領域などの課題により、合理的な地形のジオメトリと詳細な建物ファサードを再構築することがさらに困難になります。
これらの問題に対処するために、徐々に訓練された多解像度ハッシュグリッド再構成アーキテクチャを活用する新しいフレームワークであるSAT-DNを提案します。
多解像度のハッシュグリッドはトレーニングを加速しますが、プログレッシブ戦略は学習周波数を徐々に増加させ、粗い低周波ジオメトリを使用して微細な高周波の詳細の再構築を導きます。
深さと通常の制約により、明確な建物の輪郭が保証され、平面分布が正しくなります。
DFC2019データセットでの広範な実験は、SAT-DNが既存の方法を上回り、定性的評価と定量的評価の両方で最先端の結果を達成することを示しています。
このコードは、https://github.com/costune/satdnで入手できます。

要約(オリジナル)

With advancements in satellite imaging technology, acquiring high-resolution multi-view satellite imagery has become increasingly accessible, enabling rapid and location-independent ground model reconstruction. However, traditional stereo matching methods struggle to capture fine details, and while neural radiance fields (NeRFs) achieve high-quality reconstructions, their training time is prohibitively long. Moreover, challenges such as low visibility of building facades, illumination and style differences between pixels, and weakly textured regions in satellite imagery further make it hard to reconstruct reasonable terrain geometry and detailed building facades. To address these issues, we propose Sat-DN, a novel framework leveraging a progressively trained multi-resolution hash grid reconstruction architecture with explicit depth guidance and surface normal consistency constraints to enhance reconstruction quality. The multi-resolution hash grid accelerates training, while the progressive strategy incrementally increases the learning frequency, using coarse low-frequency geometry to guide the reconstruction of fine high-frequency details. The depth and normal constraints ensure a clear building outline and correct planar distribution. Extensive experiments on the DFC2019 dataset demonstrate that Sat-DN outperforms existing methods, achieving state-of-the-art results in both qualitative and quantitative evaluations. The code is available at https://github.com/costune/SatDN.

arxiv情報

著者 Tianle Liu,Shuangming Zhao,Wanshou Jiang,Bingxuan Guo
発行日 2025-02-12 12:27:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Sat-DN: Implicit Surface Reconstruction from Multi-View Satellite Images with Depth and Normal Supervision はコメントを受け付けていません

Uncertainty Aware Human-machine Collaboration in Camouflaged Object Detection

要約

環境内で隠されたオブジェクトを識別するタスクであるカモフラージュオブジェクト検出(COD)は、その幅広い実用的なアプリケーションのために急速に成長しています。
信頼できるCODシステムを開発するための重要なステップは、不確実性の推定と効果的な利用です。
この作業では、カモフラージュオブジェクトの存在を分類するためのヒューマンマシンコラボレーションフレームワークを提案し、コンピュータービジョン(CV)モデルと非侵襲的脳コンピューターインターフェイス(BCIS)の相補的な強さを活用します。
私たちのアプローチでは、CVモデルの予測の不確実性を推定するためのマルチビューバックボーンを導入し、トレーニング中にこの不確実性を利用して効率を改善し、より信頼性の高い意思決定のテスト中にRSVPベースのBCISを介して人間の評価の低いケースを排除します。
迷彩データセットのフレームワークを評価し、既存の方法と比較して、平均精度(BA)で平均4.56 \%、F1スコアで3.66 \%の平均改善で最先端の結果を達成しました。
最高のパフォーマンスの参加者の場合、改善はBAで7.6 \%、F1スコアで6.66 \%に達しました。
トレーニングプロセスの分析により、信頼測定と精度の間の強い相関関係が明らかになりましたが、アブレーション研究により、提案されたトレーニングポリシーの有効性とヒューマンマシンコラボレーション戦略が確認されました。
一般に、この作業は人間の認知負荷を削減し、システムの信頼性を向上させ、現実世界のCODアプリケーションとヒューマンコンピューターの相互作用の進歩の強力な基盤を提供します。
私たちのコードとデータは、https://github.com/ziyuey/unc evanterty-aware-human-machine-collaboration-in-camouflage-object-識別で入手できます。

要約(オリジナル)

Camouflaged Object Detection (COD), the task of identifying objects concealed within their environments, has seen rapid growth due to its wide range of practical applications. A key step toward developing trustworthy COD systems is the estimation and effective utilization of uncertainty. In this work, we propose a human-machine collaboration framework for classifying the presence of camouflaged objects, leveraging the complementary strengths of computer vision (CV) models and noninvasive brain-computer interfaces (BCIs). Our approach introduces a multiview backbone to estimate uncertainty in CV model predictions, utilizes this uncertainty during training to improve efficiency, and defers low-confidence cases to human evaluation via RSVP-based BCIs during testing for more reliable decision-making. We evaluated the framework in the CAMO dataset, achieving state-of-the-art results with an average improvement of 4.56\% in balanced accuracy (BA) and 3.66\% in the F1 score compared to existing methods. For the best-performing participants, the improvements reached 7.6\% in BA and 6.66\% in the F1 score. Analysis of the training process revealed a strong correlation between our confidence measures and precision, while an ablation study confirmed the effectiveness of the proposed training policy and the human-machine collaboration strategy. In general, this work reduces human cognitive load, improves system reliability, and provides a strong foundation for advancements in real-world COD applications and human-computer interaction. Our code and data are available at: https://github.com/ziyuey/Uncertainty-aware-human-machine-collaboration-in-camouflaged-object-identification.

arxiv情報

著者 Ziyue Yang,Kehan Wang,Yuhang Ming,Yong Peng,Han Yang,Qiong Chen,Wanzeng Kong
発行日 2025-02-12 13:05:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Uncertainty Aware Human-machine Collaboration in Camouflaged Object Detection はコメントを受け付けていません

AdvSwap: Covert Adversarial Perturbation with High Frequency Info-swapping for Autonomous Driving Perception

要約

自律車両(AVS)の知覚モジュールは、攻撃の影響を受けやすくなり、敵対的な入力を通じてニューラルネットワークの脆弱性を活用し、それによってAIの安全性が損なわれます。
一部の研究では、秘密の敵対的なサンプルの作成に焦点を当てていますが、既存のグローバルノイズ技術は検出可能であり、人間の視覚システムを欺くのが困難です。
このペーパーでは、新しい敵対的な攻撃方法であるAdvswapを紹介します。Advswapは、ウェーブレットベースの高頻度情報スワッピングを創造的に利用して、秘密の敵対サンプルを生成し、カメラを欺いています。
ADVSWAPは、選択的な高周波情報交換に反転性ニューラルネットワークを採用し、前方の伝播とデータの完全性の両方を維持します。
このスキームは、元のラベルデータを効果的に削除し、ガイダンス画像データを組み込み、隠された堅牢な敵対サンプルを生成します。
GTSRBおよびNuscenesデータセットの実験的評価と比較は、ADVSWAPが一般的なトラフィック目標に隠された攻撃を行うことができることを示しています。
生成された敵対的なサンプルは、人間とアルゴリズムによって知覚することも困難です。
一方、この方法には、強い攻撃の堅牢性と攻撃移動性があります。

要約(オリジナル)

Perception module of Autonomous vehicles (AVs) are increasingly susceptible to be attacked, which exploit vulnerabilities in neural networks through adversarial inputs, thereby compromising the AI safety. Some researches focus on creating covert adversarial samples, but existing global noise techniques are detectable and difficult to deceive the human visual system. This paper introduces a novel adversarial attack method, AdvSwap, which creatively utilizes wavelet-based high-frequency information swapping to generate covert adversarial samples and fool the camera. AdvSwap employs invertible neural network for selective high-frequency information swapping, preserving both forward propagation and data integrity. The scheme effectively removes the original label data and incorporates the guidance image data, producing concealed and robust adversarial samples. Experimental evaluations and comparisons on the GTSRB and nuScenes datasets demonstrate that AdvSwap can make concealed attacks on common traffic targets. The generates adversarial samples are also difficult to perceive by humans and algorithms. Meanwhile, the method has strong attacking robustness and attacking transferability.

arxiv情報

著者 Yuanhao Huang,Qinfan Zhang,Jiandong Xing,Mengyue Cheng,Haiyang Yu,Yilong Ren,Xiao Xiong
発行日 2025-02-12 13:05:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AdvSwap: Covert Adversarial Perturbation with High Frequency Info-swapping for Autonomous Driving Perception はコメントを受け付けていません