Rasterizing Wireless Radiance Field via Deformable 2D Gaussian Splatting

要約

ワイヤレスラディアンスフィールド(WRF)のモデリングは、最新の通信システムの基本であり、ローカリゼーション、センシング、チャネル推定などの重要なタスクを可能にします。
経験的な式または物理シミュレーションに依存する従来のアプローチは、しばしば限られた精度に悩まされるか、強いシーンの事前に必要です。
最近のニューラル放射輝度フィールド(NERFベース)方法は、微分可能な体積レンダリングにより再構成の忠実度を改善しますが、計算上の高価な多層パーセプトロン(MLP)クエリへの依存はリアルタイムの展開を妨げます。
これらの課題を克服するために、ワイヤレスドメインにガウススプラット(GS)を導入し、コンパクトで正確なWRF再構成を可能にする光学放射界のモデリングの効率を活用します。
具体的には、片面トランシーバーモビリティの下で任意の位置でWRFスペクトルを合成する、変形可能な2DガウススプラッティングフレームワークであるSwiftWrfを提案します。
SWIFTWRFは、CUDAのアクセラレーションラスター化を採用して100000 fpsを超えるスペクトルをレンダリングし、軽量MLPを使用して2Dガウスの変形をモデル化し、モビリティ誘導のWRF変動を効果的に獲得します。
新規スペクトル合成に加えて、SWIFTWRFの有効性は、そのアプリケーションで、Angle-of-Arrival(AOA)および受信信号強度インジケータ(RSSI)予測でさらに強調されています。
現実世界と合成の屋内シーンの両方で実施さ​​れた実験は、SWIFTWRFが既存の最先端の方法よりも最大500倍高速でWRFスペクトルを再構築し、その信号の品質を大幅に向上させることを示しています。
プロジェクトページはhttps://evan-sudo.github.io/swiftwrf/です。

要約(オリジナル)

Modeling the wireless radiance field (WRF) is fundamental to modern communication systems, enabling key tasks such as localization, sensing, and channel estimation. Traditional approaches, which rely on empirical formulas or physical simulations, often suffer from limited accuracy or require strong scene priors. Recent neural radiance field (NeRF-based) methods improve reconstruction fidelity through differentiable volumetric rendering, but their reliance on computationally expensive multilayer perceptron (MLP) queries hinders real-time deployment. To overcome these challenges, we introduce Gaussian splatting (GS) to the wireless domain, leveraging its efficiency in modeling optical radiance fields to enable compact and accurate WRF reconstruction. Specifically, we propose SwiftWRF, a deformable 2D Gaussian splatting framework that synthesizes WRF spectra at arbitrary positions under single-sided transceiver mobility. SwiftWRF employs CUDA-accelerated rasterization to render spectra at over 100000 fps and uses a lightweight MLP to model the deformation of 2D Gaussians, effectively capturing mobility-induced WRF variations. In addition to novel spectrum synthesis, the efficacy of SwiftWRF is further underscored in its applications in angle-of-arrival (AoA) and received signal strength indicator (RSSI) prediction. Experiments conducted on both real-world and synthetic indoor scenes demonstrate that SwiftWRF can reconstruct WRF spectra up to 500x faster than existing state-of-the-art methods, while significantly enhancing its signal quality. The project page is https://evan-sudo.github.io/swiftwrf/.

arxiv情報

著者 Mufan Liu,Cixiao Zhang,Qi Yang,Yujie Cao,Yiling Xu,Yin Xu,Shu Sun,Mingzeng Dai,Yunfeng Guan
発行日 2025-06-18 12:41:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Rasterizing Wireless Radiance Field via Deformable 2D Gaussian Splatting はコメントを受け付けていません

Hunyuan3D 2.1: From Images to High-Fidelity 3D Assets with Production-Ready PBR Material

要約

3D AI-Generated Content(AIGC)は、ゲーム、映画、デザインの3Dモデルの作成を大幅に加速した情熱的な分野です。
3D世代に革命をもたらしたいくつかの画期的なモデルの開発にもかかわらず、この分野は、3Dモデルの収集、処理、およびトレーニングに関与する複雑さのために、研究者、開発者、および設計者のみが主にアクセスできます。
これらの課題に対処するために、このチュートリアルのケーススタディとしてHunyuan3d 2.1を紹介します。
このチュートリアルでは、3Dデータの処理、3D生成モデルのトレーニング、および高解像度のテクスチャ3Dアセットを生成するための高度なシステムであるHunyuan3D 2.1を使用してパフォーマンスを評価する包括的な段階的なガイドを提供します。
このシステムは、2つのコアコンポーネントで構成されています。形状生成用のHunyuan3D-DITと、テクスチャ合成用のHunyuan3D-Paintです。
データの準備、モデルアーキテクチャ、トレーニング戦略、評価メトリック、展開など、ワークフロー全体を調査します。
このチュートリアルの結論により、ゲーム、仮想現実、工業デザインのアプリケーションに適した堅牢な3D生成モデルを微調整または開発する知識が得られます。

要約(オリジナル)

3D AI-generated content (AIGC) is a passionate field that has significantly accelerated the creation of 3D models in gaming, film, and design. Despite the development of several groundbreaking models that have revolutionized 3D generation, the field remains largely accessible only to researchers, developers, and designers due to the complexities involved in collecting, processing, and training 3D models. To address these challenges, we introduce Hunyuan3D 2.1 as a case study in this tutorial. This tutorial offers a comprehensive, step-by-step guide on processing 3D data, training a 3D generative model, and evaluating its performance using Hunyuan3D 2.1, an advanced system for producing high-resolution, textured 3D assets. The system comprises two core components: the Hunyuan3D-DiT for shape generation and the Hunyuan3D-Paint for texture synthesis. We will explore the entire workflow, including data preparation, model architecture, training strategies, evaluation metrics, and deployment. By the conclusion of this tutorial, you will have the knowledge to finetune or develop a robust 3D generative model suitable for applications in gaming, virtual reality, and industrial design.

arxiv情報

著者 Team Hunyuan3D,Shuhui Yang,Mingxin Yang,Yifei Feng,Xin Huang,Sheng Zhang,Zebin He,Di Luo,Haolin Liu,Yunfei Zhao,Qingxiang Lin,Zeqiang Lai,Xianghui Yang,Huiwen Shi,Zibo Zhao,Bowen Zhang,Hongyu Yan,Lifu Wang,Sicong Liu,Jihong Zhang,Meng Chen,Liang Dong,Yiwen Jia,Yulin Cai,Jiaao Yu,Yixuan Tang,Dongyuan Guo,Junlin Yu,Hao Zhang,Zheng Ye,Peng He,Runzhou Wu,Shida Wei,Chao Zhang,Yonghao Tan,Yifu Sun,Lin Niu,Shirui Huang,Bojian Zheng,Shu Liu,Shilin Chen,Xiang Yuan,Xiaofeng Yang,Kai Liu,Jianchen Zhu,Peng Chen,Tian Liu,Di Wang,Yuhong Liu,Linus,Jie Jiang,Jingwei Huang,Chunchao Guo
発行日 2025-06-18 13:14:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Hunyuan3D 2.1: From Images to High-Fidelity 3D Assets with Production-Ready PBR Material はコメントを受け付けていません

RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning

要約

最近、Vision Language Models(VLM)は、より良い人間コンピューターの相互作用、アクセシビリティ、および詳細な理解を実現するために、ドキュメントの視覚的基盤をますます強調しています。
ただし、チャートなどの視覚化への適用は、チャート画像におけるインターリーブされた視覚的数値関係の固有の複雑さのために、依存していないままです。
既存のチャート理解方法は、予測をサポートする視覚的要素を明示的に識別することなく、主に質問に答えることに焦点を当てています。
このギャップを埋めるために、チャートの質問応答(Chartqa)を視覚的な接地と統合する新しいベンチマークであるRefchartqaを紹介し、チャート画像内の複数の粒度の要素を参照できるようにします。
さらに、さまざまなカテゴリで5つの最先端のVLMを指導することにより、包括的な評価を実施します。
私たちの実験は、接地を介して空間的認識を組み込むことで、応答の精度が15%を超え、幻覚を減らし、モデルの信頼性を向上させることを示しています。
さらに、TinyChartのアーキテクチャの改善など、テキスト空間の調整に影響を与える重要な要因を特定します。これは、機能融合の強化されたトークンマージモジュールを活用します。
私たちのデータセットは、コミュニティ開発とさらなる進歩のためにオープンソーシングされています。
すべてのモデルとコードは、https://github.com/moured/refchartqaで公開されます。

要約(オリジナル)

Recently, Vision Language Models (VLMs) have increasingly emphasized document visual grounding to achieve better human-computer interaction, accessibility, and detailed understanding. However, its application to visualizations such as charts remains under-explored due to the inherent complexity of interleaved visual-numerical relationships in chart images. Existing chart understanding methods primarily focus on answering questions without explicitly identifying the visual elements that support their predictions. To bridge this gap, we introduce RefChartQA, a novel benchmark that integrates Chart Question Answering (ChartQA) with visual grounding, enabling models to refer elements at multiple granularities within chart images. Furthermore, we conduct a comprehensive evaluation by instruction-tuning 5 state-of-the-art VLMs across different categories. Our experiments demonstrate that incorporating spatial awareness via grounding improves response accuracy by over 15%, reducing hallucinations, and improving model reliability. Additionally, we identify key factors influencing text-spatial alignment, such as architectural improvements in TinyChart, which leverages a token-merging module for enhanced feature fusion. Our dataset is open-sourced for community development and further advancements. All models and code will be publicly available at https://github.com/moured/RefChartQA.

arxiv情報

著者 Alexander Vogel,Omar Moured,Yufan Chen,Jiaming Zhang,Rainer Stiefelhagen
発行日 2025-06-18 13:17:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning はコメントを受け付けていません

Instance-Adaptive Keypoint Learning with Local-to-Global Geometric Aggregation for Category-Level Object Pose Estimation

要約

カテゴリレベルのオブジェクトのポーズ推定は、事前に定義されたカテゴリから以前に見えなかったインスタンスの6Dポーズとサイズを予測することを目的としており、多様なオブジェクトインスタンス全体で強力な一般化が必要です。
多くの以前の方法は、クラス内のバリエーションを軽減しようとしますが、それらはしばしば複雑な幾何学または標準的な形状からの重要な逸脱を示すインスタンスと格闘しています。
この問題に対処するために、ローカルからグローバルへの幾何学的集合体を使用したインスタンス適応キーポイント学習を可能にする新しいカテゴリレベルのオブジェクトポーズ推定フレームワークであるINKLポーズを提案します。
具体的には、私たちの方法は、最初に、インスタンス適応キーポイント検出器を使用して、意味的に一貫した幾何学的に有益なキーポイントを予測し、次に洗練します。
MAMBAでの双方向モデリングを有効にするために、バックワード機能シーケンスを構築しながら空間コヒーレンスを保持するシンプルで効果的な機能シーケンスフリッピング戦略を導入します。
さらに、キーポイント分布の均一なカバレッジと空間的多様性を促進するために、表面損失と分離損失を設計します。
結果のキーポイントは、6Dポーズとサイズの回帰のための標準空間にマッピングされます。
Camera25、Real275、およびHouseCat6Dでの広範な実験は、INKLポーズが16.7Mパラメーターで最先端のパフォーマンスを達成し、NVIDIA RTX 4090D GPUで36 fpsで実行されることを示しています。

要約(オリジナル)

Category-level object pose estimation aims to predict the 6D pose and size of previously unseen instances from predefined categories, requiring strong generalization across diverse object instances. Although many previous methods attempt to mitigate intra-class variations, they often struggle with instances exhibiting complex geometries or significant deviations from canonical shapes. To address this issue, we propose INKL-Pose, a novel category-level object pose estimation framework that enables INstance-adaptive Keypoint Learning with local-to-global geometric aggregation. Specifically, our method first predicts semantically consistent and geometrically informative keypoints using an Instance-Adaptive Keypoint Detector, then refines them: (1) a Local Keypoint Feature Aggregator capturing fine-grained geometries, and (2) a Global Keypoint Feature Aggregator using bidirectional Mamba for structural consistency. To enable bidirectional modeling in Mamba, we introduce a simple yet effective Feature Sequence Flipping strategy that preserves spatial coherence while constructing backward feature sequence. Additionally, we design a surface loss and a separation loss to encourage uniform coverage and spatial diversity in keypoint distribution. The resulting keypoints are mapped to a canonical space for 6D pose and size regression. Extensive experiments on CAMERA25, REAL275, and HouseCat6D show that INKL-Pose achieves state-of-the-art performance with 16.7M parameters and runs at 36 FPS on an NVIDIA RTX 4090D GPU.

arxiv情報

著者 Xiao Zhang,Lu Zou,Tao Lu,Yuan Yao,Zhangjin Huang,Guoping Wang
発行日 2025-06-18 13:21:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Instance-Adaptive Keypoint Learning with Local-to-Global Geometric Aggregation for Category-Level Object Pose Estimation はコメントを受け付けていません

Leveraging Depth and Language for Open-Vocabulary Domain-Generalized Semantic Segmentation

要約

セマンティックセグメンテーション(DGSS)におけるオープンボキャブラリーセマンティックセグメンテーション(OVSS)とドメイン一般化は、オープンボキャブラリードメイン一般化セマンティックセグメンテーション(OV-DGSS)を動機付ける微妙な相補性を強調しています。
OV-DGSSは、目に見えないドメイン全体で堅牢性を維持しながら、目に見えないカテゴリのピクセルレベルマスクを生成することを目的としています。
OVSSとDGSSの強度を初めて統合するOV-DGSSの新しいシングルステージフレームワークであるVireoを紹介します。
Vireoは、冷凍Visual Foundationモデル(VFM)に基づいて構築され、深さVFMを介してシーンジオメトリを組み込んで、ドメインに不変の構造的特徴を抽出します。
ドメインシフト下の視覚モダリティとテキストモダリティのギャップを埋めるために、3つの重要なコンポーネントを提案します。(1)幾何学的特徴を言語キューに合わせ、VFMエンコーダー表現を徐々に改良するジオテキストプロンプトを提案します。
(2)より速い収束とより強いテキストの影響のために勾配流を強化するための粗いマスク事前埋め込み(CMPE)。
(3)堅牢な予測のために洗練された構造的および意味的特徴を融合するドメインオープンと音量のベクター埋め込みヘッド(DOV-veh)。
これらのコンポーネントの包括的な評価は、私たちの設計の有効性を示しています。
提案されているVireoは、最先端のパフォーマンスを達成し、既存の方法をドメイン一般化とオープンボキャブラリー認識の両方で大きなマージンで上回り、多様で動的な環境で堅牢な視覚的理解のための統一されたスケーラブルなソリューションを提供します。
コードはhttps://github.com/anonymouse-9c53tp182bvz/vireoで入手できます。

要約(オリジナル)

Open-Vocabulary semantic segmentation (OVSS) and domain generalization in semantic segmentation (DGSS) highlight a subtle complementarity that motivates Open-Vocabulary Domain-Generalized Semantic Segmentation (OV-DGSS). OV-DGSS aims to generate pixel-level masks for unseen categories while maintaining robustness across unseen domains, a critical capability for real-world scenarios such as autonomous driving in adverse conditions. We introduce Vireo, a novel single-stage framework for OV-DGSS that unifies the strengths of OVSS and DGSS for the first time. Vireo builds upon the frozen Visual Foundation Models (VFMs) and incorporates scene geometry via Depth VFMs to extract domain-invariant structural features. To bridge the gap between visual and textual modalities under domain shift, we propose three key components: (1) GeoText Prompts, which align geometric features with language cues and progressively refine VFM encoder representations; (2) Coarse Mask Prior Embedding (CMPE) for enhancing gradient flow for faster convergence and stronger textual influence; and (3) the Domain-Open-Vocabulary Vector Embedding Head (DOV-VEH), which fuses refined structural and semantic features for robust prediction. Comprehensive evaluation on these components demonstrates the effectiveness of our designs. Our proposed Vireo achieves the state-of-the-art performance and surpasses existing methods by a large margin in both domain generalization and open-vocabulary recognition, offering a unified and scalable solution for robust visual understanding in diverse and dynamic environments. Code is available at https://github.com/anonymouse-9c53tp182bvz/Vireo.

arxiv情報

著者 Siyu Chen,Ting Han,Chengzheng Fu,Changshe Zhang,Chaolei Wang,Jinhe Su,Guorong Cai,Meiliu Wu
発行日 2025-06-18 13:58:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Leveraging Depth and Language for Open-Vocabulary Domain-Generalized Semantic Segmentation はコメントを受け付けていません

Multimodal Large Language Models for Medical Report Generation via Customized Prompt Tuning

要約

イメージングデータからの医療報告書の生成は、臨床診療における困難なタスクのままです。
大規模な言語モデル(LLM)は、この課題に対処することに大きな期待を示していますが、医療画像データとの効果的な統合は依然として詳細な調査に値します。
この論文では、冷凍LLMと学習可能な視覚エンコーダーを組み合わせて動的なプロンプトカスタマイズメカニズムを導入する新しいマルチモーダル大手言語モデル(MLLM)であるMRG-LLMを紹介します。
私たちの主要な革新は、視覚的特徴から派生した条件付きアフィン変換を通じて個々の医療画像に合わせたインスタンス固有のプロンプトを生成することにあります。
2つの実装を提案します:プロンプトごとのおよびプロンプトブックごとのカスタマイズ、正確でターゲットを絞ったレポート生成を可能にします。
IU X線およびMIMIC-CXRデータセットに関する広範な実験は、MRG-LLMが医療報告書の生成で最先端のパフォーマンスを達成することを示しています。
私たちのコードは公開されます。

要約(オリジナル)

Medical report generation from imaging data remains a challenging task in clinical practice. While large language models (LLMs) show great promise in addressing this challenge, their effective integration with medical imaging data still deserves in-depth exploration. In this paper, we present MRG-LLM, a novel multimodal large language model (MLLM) that combines a frozen LLM with a learnable visual encoder and introduces a dynamic prompt customization mechanism. Our key innovation lies in generating instance-specific prompts tailored to individual medical images through conditional affine transformations derived from visual features. We propose two implementations: prompt-wise and promptbook-wise customization, enabling precise and targeted report generation. Extensive experiments on IU X-ray and MIMIC-CXR datasets demonstrate that MRG-LLM achieves state-of-the-art performance in medical report generation. Our code will be made publicly available.

arxiv情報

著者 Chunlei Li,Jingyang Hou,Yilei Shi,Jingliang Hu,Xiao Xiang Zhu,Lichao Mou
発行日 2025-06-18 14:09:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multimodal Large Language Models for Medical Report Generation via Customized Prompt Tuning はコメントを受け付けていません

GenHOI: Generalizing Text-driven 4D Human-Object Interaction Synthesis for Unseen Objects

要約

拡散モデルと大規模なモーションデータセットは、テキスト駆動型のヒトモーション合成の高度なものですが、主に大規模な4D HOIデータセットの利用可能性が限られているため、これらの進歩を4Dヒトオブジェクト相互作用(HOI)に拡大することは依然として困難です。
私たちの研究では、2つの重要な目的を達成することを目的とした新しい2段階のフレームワークであるGenhoiを紹介します。1)目に見えないオブジェクトへの一般化と2)高忠実度4D HOIシーケンスの統合。
フレームワークの初期段階では、オブジェクトアンチョーネットを使用して、3D HOIデータセットだけから学習し、大規模な4D HOIデータセットへの依存を軽減するために、目に見えないオブジェクトのスパース3D HOIキーフレームを再構築します。
その後、第2段階で接触認識拡散モデル(contactDM)を導入して、まばらな3D HOIキーフレームを密に一時的にコヒーレントな4D HOIシーケンスにシームレスに補間します。
生成された4D HOIシーケンスの品質を向上させるために、ContactDM内の新しいコンタクト認識エンコーダーを提案して、ヒトオブジェクトの接触パターンと、コンタクトシグナルを拡散モデルに効果的に統合するための新しいコンタクト認識HOIの注意を抽出します。
実験結果は、公開されているOMOMOおよび3D-Futureデータセットで最新の結果を達成し、目に見えないオブジェクトに強力な一般化能力を実証し、高忠実度の4D HOI生成を可能にすることを示しています。

要約(オリジナル)

While diffusion models and large-scale motion datasets have advanced text-driven human motion synthesis, extending these advances to 4D human-object interaction (HOI) remains challenging, mainly due to the limited availability of large-scale 4D HOI datasets. In our study, we introduce GenHOI, a novel two-stage framework aimed at achieving two key objectives: 1) generalization to unseen objects and 2) the synthesis of high-fidelity 4D HOI sequences. In the initial stage of our framework, we employ an Object-AnchorNet to reconstruct sparse 3D HOI keyframes for unseen objects, learning solely from 3D HOI datasets, thereby mitigating the dependence on large-scale 4D HOI datasets. Subsequently, we introduce a Contact-Aware Diffusion Model (ContactDM) in the second stage to seamlessly interpolate sparse 3D HOI keyframes into densely temporally coherent 4D HOI sequences. To enhance the quality of generated 4D HOI sequences, we propose a novel Contact-Aware Encoder within ContactDM to extract human-object contact patterns and a novel Contact-Aware HOI Attention to effectively integrate the contact signals into diffusion models. Experimental results show that we achieve state-of-the-art results on the publicly available OMOMO and 3D-FUTURE datasets, demonstrating strong generalization abilities to unseen objects, while enabling high-fidelity 4D HOI generation.

arxiv情報

著者 Shujia Li,Haiyu Zhang,Xinyuan Chen,Yaohui Wang,Yutong Ban
発行日 2025-06-18 14:17:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | GenHOI: Generalizing Text-driven 4D Human-Object Interaction Synthesis for Unseen Objects はコメントを受け付けていません

Unsourced Adversarial CAPTCHA: A Bi-Phase Adversarial CAPTCHA Framework

要約

深い学習の急速な進歩により、従来のキャプチャスキームは、深いニューラルネットワーク(DNNS)を搭載した自動攻撃に対してますます脆弱になります。
既存の敵対的な攻撃方法は、多くの場合、元の画像特性に依存しているため、人間の解釈を妨げ、初期入力画像がないシナリオの適用性を制限する歪みが生じます。
これらの課題に対処するために、攻撃者指定のテキストプロンプトに導かれた高忠実度の敵対例を生成する新しい枠組みを生成する新しいフレームワークである、協力していない敵対的なcaptcha(UAC)を提案します。
大規模な言語モデル(LLM)を活用して、UACはCaptchaの多様性を高め、ターゲットとターゲットの両方の攻撃の両方をサポートします。
ターゲットを絞った攻撃の場合、ed令の方法は、優れた画質のために拡散モデルの二重潜在変数を最適化します。
特にブラックボックスのシナリオでは、魅力的な攻撃では、バイパスの溶けた敵対的なキャプチャ(BP-UAC)を紹介します。これは、マルチモーダル勾配と効率的な誤分類のためのバイパス最適化を採用する2段階の最適化戦略です。
実験では、BP-UACが多様なシステム全体で高い攻撃の成功率を達成し、人間とDNNと区別できない自然なキャプチャを生成します。

要約(オリジナル)

With the rapid advancements in deep learning, traditional CAPTCHA schemes are increasingly vulnerable to automated attacks powered by deep neural networks (DNNs). Existing adversarial attack methods often rely on original image characteristics, resulting in distortions that hinder human interpretation and limit applicability in scenarios lacking initial input images. To address these challenges, we propose the Unsourced Adversarial CAPTCHA (UAC), a novel framework generating high-fidelity adversarial examples guided by attacker-specified text prompts. Leveraging a Large Language Model (LLM), UAC enhances CAPTCHA diversity and supports both targeted and untargeted attacks. For targeted attacks, the EDICT method optimizes dual latent variables in a diffusion model for superior image quality. In untargeted attacks, especially for black-box scenarios, we introduce bi-path unsourced adversarial CAPTCHA (BP-UAC), a two-step optimization strategy employing multimodal gradients and bi-path optimization for efficient misclassification. Experiments show BP-UAC achieves high attack success rates across diverse systems, generating natural CAPTCHAs indistinguishable to humans and DNNs.

arxiv情報

著者 Xia Du,Xiaoyuan Liu,Jizhe Zhou,Zheng Lin,Chi-man Pun,Cong Wu,Tao Li,Zhe Chen,Wei Ni,Jun Luo
発行日 2025-06-18 14:20:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV | Unsourced Adversarial CAPTCHA: A Bi-Phase Adversarial CAPTCHA Framework はコメントを受け付けていません

Advanced cervical cancer classification: enhancing pap smear images with hybrid PMD Filter-CLAHE

要約

子宮頸がんは、特に発展途上国では重大な健康問題のままです。
効果的な治療には早期発見が重要です。
畳み込みニューラルネットワーク(CNN)は、自動化された子宮頸がんのスクリーニングで有望を示していますが、その性能はパップ塗抹標本の画質に依存します。
この研究では、SIPAKMEDデータセットを使用した子宮頸がん分類のためのCNNパフォーマンスに対するさまざまな画像前処理技術の影響を調査します。
3つの前処理技術が評価されました:ノイズ低減のためのPerona-Malik Diffusion(PMD)フィルター、画像コントラストの強化のためのコントラスト制限適応ヒストグラムイコライゼーション(CLAHE)、および提案されているハイブリッドPMDフィルター-Claheアプローチ。
拡張された画像データセットは、ResNet-34、ResNet-50、Squezenet-1.0、MobileNet-V2、EfficientNet-B0、EfficientNet-B1、Densenet-121、Densenet-20101などの前提型モデルで評価されました。
結果は、ハイブリッドの前処理PMDフィルター-Claheが、元の画像と比較してPAP塗抹標本の画質とCNNアーキテクチャのパフォーマンスを改善できることを示しています。
最大のメトリックの改善は、精度で13.62%、精度で10.04%、リコールで13.08%、F1スコアで14.34%です。
提案されているハイブリッドPMDフィルターClahe技術は、CNNアーキテクチャを使用して子宮頸がん分類性能を改善する新しい視点を提供します。

要約(オリジナル)

Cervical cancer remains a significant health problem, especially in developing countries. Early detection is critical for effective treatment. Convolutional neural networks (CNN) have shown promise in automated cervical cancer screening, but their performance depends on Pap smear image quality. This study investigates the impact of various image preprocessing techniques on CNN performance for cervical cancer classification using the SIPaKMeD dataset. Three preprocessing techniques were evaluated: perona-malik diffusion (PMD) filter for noise reduction, contrast-limited adaptive histogram equalization (CLAHE) for image contrast enhancement, and the proposed hybrid PMD filter-CLAHE approach. The enhanced image datasets were evaluated on pretrained models, such as ResNet-34, ResNet-50, SqueezeNet-1.0, MobileNet-V2, EfficientNet-B0, EfficientNet-B1, DenseNet-121, and DenseNet-201. The results show that hybrid preprocessing PMD filter-CLAHE can improve the Pap smear image quality and CNN architecture performance compared to the original images. The maximum metric improvements are 13.62% for accuracy, 10.04% for precision, 13.08% for recall, and 14.34% for F1-score. The proposed hybrid PMD filter-CLAHE technique offers a new perspective in improving cervical cancer classification performance using CNN architectures.

arxiv情報

著者 Ach Khozaimi,Isnani Darti,Syaiful Anam,Wuryansari Muharini Kusumawinahyu
発行日 2025-06-18 14:26:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Advanced cervical cancer classification: enhancing pap smear images with hybrid PMD Filter-CLAHE はコメントを受け付けていません

Pixel-level Certified Explanations via Randomized Smoothing

要約

事後帰属方法は、影響力のある入力ピクセルを強調することにより、深い学習予測を説明することを目的としています。
ただし、これらの説明は非常に堅牢ではありません。小さく、知覚できない入力摂動は、同じ予測を維持しながら、帰属マップを劇的に変更する可能性があります。
この脆弱性は、彼らの信頼性を損ない、ピクセルレベルの属性スコアの厳密な堅牢性保証を求めています。
ランダム化スムージングを使用して、ブラックボックス属性法のピクセルレベルの堅牢性を保証する最初の認証フレームワークを紹介します。
属性マップをスパースしてスムージングすることにより、タスクをセグメンテーションの問題として再定式化し、各ピクセルの重要性を$ \ ell_2 $ $の摂動に対する認証します。
さらに、認定された堅牢性、ローカリゼーション、忠実さを評価するために、3つの評価メトリックを提案します。
5つのImagenetモデルにわたる12の帰属方法の広範な評価は、当社の認定された属性が堅牢で解釈可能で忠実であり、ダウンストリームタスクでの信頼できる使用を可能にすることを示しています。
私たちのコードはhttps://github.com/alaaanani/certified-attributionsにあります。

要約(オリジナル)

Post-hoc attribution methods aim to explain deep learning predictions by highlighting influential input pixels. However, these explanations are highly non-robust: small, imperceptible input perturbations can drastically alter the attribution map while maintaining the same prediction. This vulnerability undermines their trustworthiness and calls for rigorous robustness guarantees of pixel-level attribution scores. We introduce the first certification framework that guarantees pixel-level robustness for any black-box attribution method using randomized smoothing. By sparsifying and smoothing attribution maps, we reformulate the task as a segmentation problem and certify each pixel’s importance against $\ell_2$-bounded perturbations. We further propose three evaluation metrics to assess certified robustness, localization, and faithfulness. An extensive evaluation of 12 attribution methods across 5 ImageNet models shows that our certified attributions are robust, interpretable, and faithful, enabling reliable use in downstream tasks. Our code is at https://github.com/AlaaAnani/certified-attributions.

arxiv情報

著者 Alaa Anani,Tobias Lorenz,Mario Fritz,Bernt Schiele
発行日 2025-06-18 14:41:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Pixel-level Certified Explanations via Randomized Smoothing はコメントを受け付けていません