A Large-scale Benchmark on Geological Fault Delineation Models: Domain Shift, Training Dynamics, Generalizability, Evaluation and Inferential Behavior

要約

機械学習は、地震解釈のワークフロー、特に障害の描写タスクにおいて重要な役割を果たしてきました。
ただし、最近の事前に守られたモデルと合成データセットの急増にもかかわらず、このフィールドには、さまざまな地質学的、取得、処理設定を表す地震データ全体のこれらのモデルの一般化可能性の制限に関する体系的な理解がまだありません。
異なるデータソース間の分布シフト、微調整戦略の制限とラベル付きデータアクセシビリティ、および一貫性のない評価プロトコルはすべて、実際の探査設定における信頼できる堅牢なモデルの展開における主要な障害を表しています。
この論文では、地震解釈におけるドメインシフト戦略の回答とガイドラインを提供するように明示的に設計された最初の大規模ベンチマーク研究を紹介します。
当社のベンチマークには、FaultSEG3D、亀裂、Thebeを含む3つの不均一データセット(合成および実際のデータ)でトレーニングおよび評価された200ドル以上のモデルが含まれます。
さまざまな程度のドメインシフトの下で、前脱、微調整、および共同トレーニング戦略を体系的に評価します。
私たちの分析は、現在の微調整慣行の脆弱性、壊滅的な忘却の出現、および体系的な方法でパフォーマンスを解釈する課題を強調しています。
現在の障害描写ワークフローに固有のトレードオフへの洞察を提供するための堅牢な実験ベースラインを確立し、地震解釈のためのより一般化可能で解釈可能な効果的な機械学習モデルを開発するための方向に光を当てます。
報告された洞察と分析は、地震解釈ワークフロー内の障害描写モデルの展開に関する一連のガイドラインを提供します。

要約(オリジナル)

Machine learning has taken a critical role in seismic interpretation workflows, especially in fault delineation tasks. However, despite the recent proliferation of pretrained models and synthetic datasets, the field still lacks a systematic understanding of the generalizability limits of these models across seismic data representing a variety of geologic, acquisition and processing settings. Distributional shifts between different data sources, limitations in fine-tuning strategies and labeled data accessibility, and inconsistent evaluation protocols all represent major roadblocks in the deployment of reliable and robust models in real-world exploration settings. In this paper, we present the first large-scale benchmarking study explicitly designed to provide answers and guidelines for domain shift strategies in seismic interpretation. Our benchmark encompasses over $200$ models trained and evaluated on three heterogeneous datasets (synthetic and real data) including FaultSeg3D, CRACKS, and Thebe. We systematically assess pretraining, fine-tuning, and joint training strategies under varying degrees of domain shift. Our analysis highlights the fragility of current fine-tuning practices, the emergence of catastrophic forgetting, and the challenges of interpreting performance in a systematic manner. We establish a robust experimental baseline to provide insights into the tradeoffs inherent to current fault delineation workflows, and shed light on directions for developing more generalizable, interpretable and effective machine learning models for seismic interpretation. The insights and analyses reported provide a set of guidelines on the deployment of fault delineation models within seismic interpretation workflows.

arxiv情報

著者 Jorge Quesada,Chen Zhou,Prithwijit Chowdhury,Mohammad Alotaibi,Ahmad Mustafa,Yusufjon Kumamnov,Mohit Prabhushankar,Ghassan AlRegib
発行日 2025-05-13 13:56:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Large-scale Benchmark on Geological Fault Delineation Models: Domain Shift, Training Dynamics, Generalizability, Evaluation and Inferential Behavior はコメントを受け付けていません

PrePrompt: Predictive prompting for class incremental learning

要約

事前に訓練されたモデルに基づくクラス増分学習(CIL)は、オープンワールドの継続的な学習のための有望な方向性を提供します。
既存の方法は、通常、相関ベースの戦略に依存します。この戦略は、画像の分類機能がクエリとして使用され、最も関連するキープロンプトを取得し、トレーニングの対応する値プロンプトを選択します。
ただし、これらのアプローチは固有の制限に直面しています。すべてのタスクの機能空間全体を、わずかなトレーニング可能なプロンプトだけで適合させることは根本的に挑戦的です。
予測プロンプト(Preprompt)を提案します。これは、タスク固有のプロンプトを予測するための事前に訓練されたモデルの自然分類能力を活用することにより、相関ベースの制限を回避する新しいCILフレームワークです。
具体的には、PrepromptはCILを2段階の予測フレームワークに分解します:タスク固有のプロンプト予測に続いてラベル予測が続きます。
理論的には魅力的ですが、このフレームワークは、古い分類器のキャリブレーションの履歴データが欠落しているため、最近のクラスにバイアスをリスクします。
Prepromptは、機能の翻訳を組み込み、安定性と可塑性を動的にバランスさせることにより、これを軽減します。
複数のベンチマークにわたる実験は、最先端のプロンプトベースのCILメソッドに対するTepromptの優位性を示しています。
コードは受け入れられるとリリースされます。

要約(オリジナル)

Class Incremental Learning (CIL) based on pre-trained models offers a promising direction for open-world continual learning. Existing methods typically rely on correlation-based strategies, where an image’s classification feature is used as a query to retrieve the most related key prompts and select the corresponding value prompts for training. However, these approaches face an inherent limitation: fitting the entire feature space of all tasks with only a few trainable prompts is fundamentally challenging. We propose Predictive Prompting (PrePrompt), a novel CIL framework that circumvents correlation-based limitations by leveraging pre-trained models’ natural classification ability to predict task-specific prompts. Specifically, PrePrompt decomposes CIL into a two-stage prediction framework: task-specific prompt prediction followed by label prediction. While theoretically appealing, this framework risks bias toward recent classes due to missing historical data for older classifier calibration. PrePrompt then mitigates this by incorporating feature translation, dynamically balancing stability and plasticity. Experiments across multiple benchmarks demonstrate PrePrompt’s superiority over state-of-the-art prompt-based CIL methods. The code will be released upon acceptance.

arxiv情報

著者 Libo Huang,Zhulin An,Chuanguang Yang,Boyu Diao,Fei Wang,Yan Zeng,Zhifeng Hao,Yongjun Xu
発行日 2025-05-13 13:57:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.5.4 | PrePrompt: Predictive prompting for class incremental learning はコメントを受け付けていません

MESSI: A Multi-Elevation Semantic Segmentation Image Dataset of an Urban Environment

要約

このペーパーでは、密集した都市環境を飛んでいるドローンで撮影された2525の画像で構成されるマルチエレベーションセマンティックセグメンテーション画像(MESSI)データセットを紹介します。
メッシは2つの主要な機能でユニークです。
まず、さまざまな高度からの画像が含まれているため、セマンティックセグメンテーションに対する深さの影響を調査できます。
第二に、いくつかの異なる都市部(異なる高度)から取得した画像が含まれています。
これは、ドローンの3Dフライトによって捉えられた視覚的な豊かさをカバーし、水平および垂直の操作を実行するため、これは重要です。
Messiには、場所、方向、およびカメラの固有のパラメーターが注釈された画像が含まれており、セマンティックセグメンテーションまたはその他の関心のあるアプリケーション(ローカリゼーション、ナビゲーション、追跡など)のために深いニューラルネットワークをトレーニングするために使用できます。
このペーパーでは、データセットについて説明し、注釈の詳細を提供します。
また、いくつかのニューラルネットワークモデルを使用してセマンティックセグメンテーションがどのように実行されたかを説明し、いくつかの関連統計を示しています。
メッシはパブリックドメインに掲載され、ドローンまたは密集した都市環境を飛んでいるドローンによってキャプチャされた画像を使用したセマンティックセグメンテーションの評価ベンチマークとして機能します。

要約(オリジナル)

This paper presents a Multi-Elevation Semantic Segmentation Image (MESSI) dataset comprising 2525 images taken by a drone flying over dense urban environments. MESSI is unique in two main features. First, it contains images from various altitudes, allowing us to investigate the effect of depth on semantic segmentation. Second, it includes images taken from several different urban regions (at different altitudes). This is important since the variety covers the visual richness captured by a drone’s 3D flight, performing horizontal and vertical maneuvers. MESSI contains images annotated with location, orientation, and the camera’s intrinsic parameters and can be used to train a deep neural network for semantic segmentation or other applications of interest (e.g., localization, navigation, and tracking). This paper describes the dataset and provides annotation details. It also explains how semantic segmentation was performed using several neural network models and shows several relevant statistics. MESSI will be published in the public domain to serve as an evaluation benchmark for semantic segmentation using images captured by a drone or similar vehicle flying over a dense urban environment.

arxiv情報

著者 Barak Pinkovich,Boaz Matalon,Ehud Rivlin,Hector Rotstein
発行日 2025-05-13 14:01:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | MESSI: A Multi-Elevation Semantic Segmentation Image Dataset of an Urban Environment はコメントを受け付けていません

FMNV: A Dataset of Media-Published News Videos for Fake News Detection

要約

ニュースメディア、特にビデオベースのプラットフォームは、日常生活に深く埋め込まれており、誤った情報拡散のリスクを同時に増幅しています。
その結果、マルチモーダルの偽のニュース検出は、重要な研究の注目を集めています。
ただし、既存のデータセットは、主に粗野な編集と限られた公共の環境を特徴とするユーザー生成ビデオで構成されていますが、専門的に作成された偽のニュースビデオは、政治的またはウイルスに動機付けられたメディアのアウトレットに広がっていることに広がっています。
このギャップに対処するために、メディア組織が発行したニュースビデオで構成される小説Da-TasetであるFMNVを構築します。
既存のデータセットとキュレーションされたコレクションの経験的分析を通じて、偽のニュースビデオを4つの異なるタイプに分類します。
この分類法に基づいて、大規模な言語モデル(LLM)を採用して、本物のメディアが発行したニュースビデオを操作することにより、欺cept的なコンテンツを自動的に生成します。
さらに、3D ResNext-101バックボーンからの時空間の動きの特徴を統合し、CLIPからの静的な視覚セマンティクスを統合するデュアルストリームアーキテクチャを特徴とするベースラインモデルであるFMNVDを提案します。
2つのストリームは、注意ベースのメカニズムを介して融合され、共競合モジュールは、効果的なマルチモーダル集約のために視覚、テキスト、およびオーディオ機能を改良します。
比較実験は、複数のベースラインにわたるFMNVの一般化能力とFMNVDの優れた検出効果の両方を示しています。
この作業は、メディアのエコシステムでインパクトの高い偽のニュースを抑制するための重要なベンチマークを確立し、モーダルの矛盾分析のためにメス脱草数を進めています。
データセットはhttps://github.com/dennisiw/fmnvで入手できます。

要約(オリジナル)

News media, particularly video-based platforms, have become deeply embed-ded in daily life, concurrently amplifying the risks of misinformation dissem-ination. Consequently, multimodal fake news detection has garnered signifi-cant research attention. However, existing datasets predominantly comprise user-generated videos characterized by crude editing and limited public en-gagement, whereas professionally crafted fake news videos disseminated by media outlets-often politically or virally motivated-pose substantially greater societal harm. To address this gap, we construct FMNV, a novel da-taset exclusively composed of news videos published by media organizations. Through empirical analysis of existing datasets and our curated collection, we categorize fake news videos into four distinct types. Building upon this taxonomy, we employ Large Language Models (LLMs) to automatically generate deceptive content by manipulating authentic media-published news videos. Furthermore, we propose FMNVD, a baseline model featuring a dual-stream architecture that integrates spatio-temporal motion features from a 3D ResNeXt-101 backbone and static visual semantics from CLIP. The two streams are fused via an attention-based mechanism, while co-attention modules refine the visual, textual, and audio features for effective multi-modal aggregation. Comparative experiments demonstrate both the generali-zation capability of FMNV across multiple baselines and the superior detec-tion efficacy of FMNVD. This work establishes critical benchmarks for de-tecting high-impact fake news in media ecosystems while advancing meth-odologies for cross-modal inconsistency analysis. Our dataset is available in https://github.com/DennisIW/FMNV.

arxiv情報

著者 Yihao Wang,Zhong Qian,Peifeng Li
発行日 2025-05-13 14:09:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | FMNV: A Dataset of Media-Published News Videos for Fake News Detection はコメントを受け付けていません

Rejoining fragmented ancient bamboo slips with physics-driven deep learning

要約

竹のスリップは、東アジアで古代文明を記録するための重要な媒体であり、シルクロードを再構築し、物質文化交流を研究し、世界的な歴史を研究するための非常に貴重な考古学的洞察を提供します。
しかし、多くの発掘された竹製スリップは何千もの不規則なピースに断片化されており、彼らのコンテンツを理解するための重要でありながら挑戦的なステップに再び参加しています。
ここでは、断片化された竹のスリップに再結合するように設計された物理主導のディープラーニングフレームワークであるWisepandaを紹介します。
骨折と物質の劣化の物理学に基づいて、ウィスパンダは竹の断片化の物理的特性をキャプチャする合成トレーニングデータを自動的に生成します。
このアプローチにより、手動でペアになったサンプルを必要とせずにマッチングネットワークのトレーニングが可能になり、再加入プロセスを促進するためのランク付けされた提案を提供します。
先行曲線マッチング方法と比較して、Wisepandaは上位50のマッチング精度を36 \%から52 \%に増加させます。
Wisepandaを使用する考古学者は、断片化された竹のスリップを再加入すると、実質的な効率の改善(約20倍高速)を経験しています。
この研究は、物理的原理を深い学習モデルに組み込むことがパフォーマンスを大幅に向上させ、考古学者が断片化されたアーティファクトを回復し、研究する方法を変えることができることを示しています。
Wisepandaは、物理学駆動型の機械学習を通じて古代のアーティファクトの修復におけるデータ不足に対処するための新しいパラダイムを提供します。

要約(オリジナル)

Bamboo slips are a crucial medium for recording ancient civilizations in East Asia, and offers invaluable archaeological insights for reconstructing the Silk Road, studying material culture exchanges, and global history. However, many excavated bamboo slips have been fragmented into thousands of irregular pieces, making their rejoining a vital yet challenging step for understanding their content. Here we introduce WisePanda, a physics-driven deep learning framework designed to rejoin fragmented bamboo slips. Based on the physics of fracture and material deterioration, WisePanda automatically generates synthetic training data that captures the physical properties of bamboo fragmentations. This approach enables the training of a matching network without requiring manually paired samples, providing ranked suggestions to facilitate the rejoining process. Compared to the leading curve matching method, WisePanda increases Top-50 matching accuracy from 36\% to 52\%. Archaeologists using WisePanda have experienced substantial efficiency improvements (approximately 20 times faster) when rejoining fragmented bamboo slips. This research demonstrates that incorporating physical principles into deep learning models can significantly enhance their performance, transforming how archaeologists restore and study fragmented artifacts. WisePanda provides a new paradigm for addressing data scarcity in ancient artifact restoration through physics-driven machine learning.

arxiv情報

著者 Jinchi Zhu,Zhou Zhao,Hailong Lei,Xiaoguang Wang,Jialiang Lu,Jing Li,Qianqian Tang,Jiachen Shen,Gui-Song Xia,Bo Du,Yongchao Xu
発行日 2025-05-13 14:16:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.CV | Rejoining fragmented ancient bamboo slips with physics-driven deep learning はコメントを受け付けていません

Unsupervised Out-of-Distribution Detection in Medical Imaging Using Multi-Exit Class Activation Maps and Feature Masking

要約

分散除外(OOD)検出は、医療イメージングアプリケーションでの深い学習モデルの信頼性を確保するために不可欠です。
この作業は、分配中(分布内(ID)データのクラスアクティベーションマップ(CAM)が通常、モデルの予測に非常に関連する領域を強調するという観察によって動機付けられていますが、OODデータにはそのような集中的な活性化がしばしば欠けています。
倒立カムで入力画像をマスキングすることにより、IDデータの特徴表現は、OODデータの機能と比較してより大きな変更を受け、区別の堅牢な基準を提供します。
このホワイトペーパーでは、マルチエキシットカムを活用してマスキングを機能させる、監視されていないOOD検出フレームワーク、マルチエキシットクラスアクティベーションマップ(MECAM)を紹介します。
さまざまな解像度と深さからカムを組み合わせたマルチエキシットネットワークを利用することにより、この方法はグローバルな特徴表現とローカルの両方の機能表現をキャプチャし、それによってOOD検出の堅牢性を高めます。
ISIC19やPathMnistを含む複数のIDデータセットでMECAMを評価し、3つの医療OODデータセット、RSNA肺炎、COVID-19、およびHeadCT、および1つの自然な画像OODデータセット(iSun)に対してパフォーマンスをテストします。
最先端のOOD検出方法との包括的な比較は、アプローチの有効性を検証します。
私たちの調査結果は、医療イメージングで監視されていないOOD検出を進めるためのマルチエキシットネットワークと機能マスキングの可能性を強調し、臨床診療におけるより信頼性の高い解釈可能なモデルへの道を開いています。

要約(オリジナル)

Out-of-distribution (OOD) detection is essential for ensuring the reliability of deep learning models in medical imaging applications. This work is motivated by the observation that class activation maps (CAMs) for in-distribution (ID) data typically emphasize regions that are highly relevant to the model’s predictions, whereas OOD data often lacks such focused activations. By masking input images with inverted CAMs, the feature representations of ID data undergo more substantial changes compared to those of OOD data, offering a robust criterion for differentiation. In this paper, we introduce a novel unsupervised OOD detection framework, Multi-Exit Class Activation Map (MECAM), which leverages multi-exit CAMs and feature masking. By utilizing mult-exit networks that combine CAMs from varying resolutions and depths, our method captures both global and local feature representations, thereby enhancing the robustness of OOD detection. We evaluate MECAM on multiple ID datasets, including ISIC19 and PathMNIST, and test its performance against three medical OOD datasets, RSNA Pneumonia, COVID-19, and HeadCT, and one natural image OOD dataset, iSUN. Comprehensive comparisons with state-of-the-art OOD detection methods validate the effectiveness of our approach. Our findings emphasize the potential of multi-exit networks and feature masking for advancing unsupervised OOD detection in medical imaging, paving the way for more reliable and interpretable models in clinical practice.

arxiv情報

著者 Yu-Jen Chen,Xueyang Li,Yiyu Shi,Tsung-Yi Ho
発行日 2025-05-13 14:18:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Unsupervised Out-of-Distribution Detection in Medical Imaging Using Multi-Exit Class Activation Maps and Feature Masking はコメントを受け付けていません

Leveraging Multi-Modal Information to Enhance Dataset Distillation

要約

データセット蒸留は、より大きな実際のデータセットの知識を保持するコンパクトで非常に代表的な合成データセットを作成することを目的としています。
既存の方法は主に視覚表現の最適化に焦点を当てていますが、追加のモダリティとオブジェクトレベルの情報を改良することで、蒸留データセットの品質を大幅に向上させることができます。
この作業では、データセットの蒸留に関する2つの重要な拡張機能、キャプションガイド付き監督とオブジェクト中心のマスキングを紹介します。
テキスト情報を統合するために、キャプション機能を活用するための2つの戦略を提案します。キャプションの埋め込みが分類段階で視覚的な機能と融合され、キャプションマッチングが融合します。
さらに、セグメンテーションマスクを適用してターゲットオブジェクトを分離し、背景の注意散漫を削除し、オブジェクト中心の学習用に設計された2つの損失関数を導入します。
包括的な評価は、キャプションベースのガイダンスとオブジェクト中心のマスキングを統合することでデータセットの蒸留が強化され、ダウンストリームタスクで優れた性能を達成する合成データセットにつながることを示しています。

要約(オリジナル)

Dataset distillation aims to create a compact and highly representative synthetic dataset that preserves the knowledge of a larger real dataset. While existing methods primarily focus on optimizing visual representations, incorporating additional modalities and refining object-level information can significantly improve the quality of distilled datasets. In this work, we introduce two key enhancements to dataset distillation: caption-guided supervision and object-centric masking. To integrate textual information, we propose two strategies for leveraging caption features: the feature concatenation, where caption embeddings are fused with visual features at the classification stage, and caption matching, which introduces a caption-based alignment loss during training to ensure semantic coherence between real and synthetic data. Additionally, we apply segmentation masks to isolate target objects and remove background distractions, introducing two loss functions designed for object-centric learning: masked feature alignment loss and masked gradient matching loss. Comprehensive evaluations demonstrate that integrating caption-based guidance and object-centric masking enhances dataset distillation, leading to synthetic datasets that achieve superior performance on downstream tasks.

arxiv情報

著者 Zhe Li,Hadrien Reynaud,Bernhard Kainz
発行日 2025-05-13 14:20:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Leveraging Multi-Modal Information to Enhance Dataset Distillation はコメントを受け付けていません

Boosting Zero-shot Stereo Matching using Large-scale Mixed Images Sources in the Real World

要約

ステレオマッチング方法は、特に実際のデータセットのために、入手するのが面倒な密なピクセルごとのグラウンドトゥルースラベルに依存しています。
合成画像と現実世界の画像間のラベル付きデータとドメインギャップの希少性も顕著な課題をもたらします。
このホワイトペーパーでは、合成、リアル、シングルビュー画像を含むVision Foundationモデルと大規模な混合画像ソースの両方を活用する新しいフレームワーク\ TextBF {Booster}を提案します。
まず、大規模なシングルビュー画像の可能性を完全に解き放つために、単眼深度推定と拡散モデルを組み合わせたデータ生成戦略を設計し、シングルビュー画像から密なステレオマッチングデータを生成します。
第二に、実際のデータセットのまばらなラベルに取り組むために、擬似モノ深度ラベルと、追加の監督のために動的なスケールおよびシフト不変の損失を使用して、単眼深度推定モデルから知識を転送します。
さらに、Vision Foundation Modelをエンコーダーとして組み込み、堅牢で転送可能な機能を抽出し、精度と一般化を高めます。
ベンチマークデータセットでの広範な実験は、私たちのアプローチの有効性を示しており、特に限られたラベル付きデータとドメインシフトを備えたシナリオで、既存の方法に対する精度の大幅な改善を達成します。

要約(オリジナル)

Stereo matching methods rely on dense pixel-wise ground truth labels, which are laborious to obtain, especially for real-world datasets. The scarcity of labeled data and domain gaps between synthetic and real-world images also pose notable challenges. In this paper, we propose a novel framework, \textbf{BooSTer}, that leverages both vision foundation models and large-scale mixed image sources, including synthetic, real, and single-view images. First, to fully unleash the potential of large-scale single-view images, we design a data generation strategy combining monocular depth estimation and diffusion models to generate dense stereo matching data from single-view images. Second, to tackle sparse labels in real-world datasets, we transfer knowledge from monocular depth estimation models, using pseudo-mono depth labels and a dynamic scale- and shift-invariant loss for additional supervision. Furthermore, we incorporate vision foundation model as an encoder to extract robust and transferable features, boosting accuracy and generalization. Extensive experiments on benchmark datasets demonstrate the effectiveness of our approach, achieving significant improvements in accuracy over existing methods, particularly in scenarios with limited labeled data and domain shifts.

arxiv情報

著者 Yuran Wang,Yingping Liang,Ying Fu
発行日 2025-05-13 14:24:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Boosting Zero-shot Stereo Matching using Large-scale Mixed Images Sources in the Real World はコメントを受け付けていません

WaveGuard: Robust Deepfake Detection and Source Tracing via Dual-Tree Complex Wavelet and Graph Neural Networks

要約

Deepfakeテクノロジーは、プライバシーの侵略や個人情報の盗難などのリスクを高めます。
これらの脅威に対処するために、周波数領域の埋め込みとグラフベースの構造一貫性を介して堅牢性と知覚性を高めるプロアクティブな透かし枠である導波管を提案します。
具体的には、デュアルツリー複合体ウェーブレット変換(DT-CWT)を使用して透かしを高周波サブバンドに埋め込み、構造一貫性グラフニューラルネットワーク(SC-GNN)を使用して視覚品質を維持しました。
また、埋め込み精度を改良するための注意モジュールを設計します。
フェイススワップと再現のタスクの実験結果は、導導体が堅牢性と視覚品質の両方で最先端の方法を上回ることを示しています。
コードはhttps://github.com/vpsg-research/waveguardで入手できます。

要約(オリジナル)

Deepfake technology poses increasing risks such as privacy invasion and identity theft. To address these threats, we propose WaveGuard, a proactive watermarking framework that enhances robustness and imperceptibility via frequency-domain embedding and graph-based structural consistency. Specifically, we embed watermarks into high-frequency sub-bands using Dual-Tree Complex Wavelet Transform (DT-CWT) and employ a Structural Consistency Graph Neural Network (SC-GNN) to preserve visual quality. We also design an attention module to refine embedding precision. Experimental results on face swap and reenactment tasks demonstrate that WaveGuard outperforms state-of-the-art methods in both robustness and visual quality. Code is available at https://github.com/vpsg-research/WaveGuard.

arxiv情報

著者 Ziyuan He,Zhiqing Guo,Liejun Wang,Gaobo Yang,Yunfeng Diao,Dan Ma
発行日 2025-05-13 14:31:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | WaveGuard: Robust Deepfake Detection and Source Tracing via Dual-Tree Complex Wavelet and Graph Neural Networks はコメントを受け付けていません

A portable diagnosis model for Keratoconus using a smartphone

要約

ケラトコノス(KC)は、局所的な薄化と突起を特徴とする進行性角膜障害であり、視覚的な歪みにつながります。
Placido Discベースの地形は臨床診断の標準であり続けていますが、特殊な機器への依存はアクセシビリティを制限します。
このホワイトペーパーでは、電話画面に表示されたPlacidoディスクの角膜反射をキャプチャし、2段階の検出パイプラインを適用し、前室の深さ(ACD)に基づく正常、中程度、および重度のKCステージをシミュレートする3Dプリントされたエマリューション眼球モデルで検証するポータブルでスマートフォンベースの診断フレームワークを提案します。
2段階検出パイプラインの最初のステップは、重み付けされたサポートベクターマシン(WSVM)を使用した抽出された反射の高さと幅を含む機能をKCのさまざまな段階に分類することです。
92.93%の最大精度を達成し、Galaxy Z Flip 3、iPhone 15 Pro、iPhone 16 Proなど、複数のスマートフォンモデルで90%以上の精度を維持しています。
2番目のステップでは、ディスク間距離に基づいてカラーマップを使用して、角膜上のKCに影響を受けた突出領域を視覚化し、疾患の重症度と局在を直感的に表現します。
さらに、クラス間で有意なp値($ p^{-6} $)と大きな効果サイズ($ \\ omega^2 $ up最大0.8398)を使用して、抽出された特徴がANOVAとOMEGAの四角で区別する能力を検証します。

要約(オリジナル)

Keratoconus (KC) is a progressive corneal disorder characterized by localized thinning and protrusion, leading to visual distortion. While Placido disc-based topography remains a standard in clinical diagnostics, its dependence on specialized equipment limits accessibility. In this paper, we propose a portable, smartphone-based diagnostic framework that captures corneal reflections of a Placido disc displayed on a phone screen and applies a two-stage detection pipeline, then validate on 3D-printed emulated eyeball models that simulate normal, moderate, and severe KC stages based on anterior chamber depth (ACD). The first step of the two-stage detection pipeline is classifying different stages of KC with features including height and width of extracted reflections using weighted support vector machine (WSVM). It achieves a maximum accuracy of 92.93%, and maintains over 90% accuracy across multiple smartphone models, including the Galaxy Z Flip 3, iPhone 15 Pro, and iPhone 16 Pro. For the second step, we visualize the KC-affected protrusion regions on the corneas with color maps based on inter-disc distance, that provides an intuitive representation of disease severity and localization. Moreover, we validate the ability of the extracted features to differentiate between KC stages with ANOVA and Omega Squared, with significant p-values (e.g., $p < 10^{-6}$) and large effect sizes ($\\omega^2$ up to 0.8398) among classes.

arxiv情報

著者 Yifan Li,Myeongjun Kim,Yanjing Jin,Peter Ho,Jo Woon Chong
発行日 2025-05-13 14:34:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | A portable diagnosis model for Keratoconus using a smartphone はコメントを受け付けていません