Many-Worlds Inverse Rendering

要約

物理的にベースの逆レンダラー内の表面を最適化する場合、不連続な視認性の変更は主要なボトルネックのままです。
多くの以前の作品では、洗練されたアルゴリズムとデータ構造を提案して、可視性シルエットをより効率的にサンプリングしています。
私たちの作品は別の解決策を提示します。暫定的な表面を局所的に区別する代わりに、表面の体積摂動を区別します。
これは、入力データセットの矛盾する説明(世界)の非相互作用の重ね合わせをモデル化するため、多くの世界の表現と呼びます。
各世界は他の世界から光学的に隔離されており、指数関数的なランダムメディアに基づいた以前の作業と私たちの方法を区別する新しい輸送法につながります。
結果のモンテカルロアルゴリズムは、以前の方法よりもシンプルで効率的です。
私たちの方法は、総反復数と反復あたりのコストの両方の観点から、急速な収束を促進することを実証します。

要約(オリジナル)

Discontinuous visibility changes remain a major bottleneck when optimizing surfaces within a physically-based inverse renderer. Many previous works have proposed sophisticated algorithms and data structures to sample visibility silhouettes more efficiently. Our work presents another solution: instead of differentiating a tentative surface locally, we differentiate a volumetric perturbation of a surface. We refer this as a many-worlds representation because it models a non-interacting superposition of conflicting explanations (worlds) of the input dataset. Each world is optically isolated from others, leading to a new transport law that distinguishes our method from prior work based on exponential random media. The resulting Monte Carlo algorithm is simpler and more efficient than prior methods. We demonstrate that our method promotes rapid convergence, both in terms of the total iteration count and the cost per iteration.

arxiv情報

著者 Ziyi Zhang,Nicolas Roussel,Wenzel Jakob
発行日 2025-04-29 15:40:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Many-Worlds Inverse Rendering はコメントを受け付けていません

AI-GenBench: A New Ongoing Benchmark for AI-Generated Image Detection

要約

生成AIの急速な進歩は、画像の作成に革命をもたらし、テキストプロンプトからの高品質の合成を可能にしながら、メディアの信頼性の重要な課題を引き起こしています。
AI-Genbenchは、実際のシナリオでAIに生成された画像の堅牢な検出の緊急の必要性に対処するために設計された新しいベンチマークです。
静的データセットでモデルを評価する既存のソリューションとは異なり、AI-Genbenchは、GANSから拡散モデルへの移行などの新しい生成モデルに一般化する能力をテストするために、歴史的に生成モデルによって順序付けられた合成画像で検出方法が段階的にトレーニングされる一時的な評価フレームワークを導入します。
当社のベンチマークは、高品質で多様な視覚コンテンツに焦点を当てており、任意のデータセットスプリット、不公平な比較、過剰な計算要求など、現在のアプローチの重要な制限を克服します。
AI-Genbenchは、包括的なデータセット、標準化された評価プロトコル、および研究者と非専門家(たとえば、ジャーナリスト、ファクトチェッカー)の両方のためのアクセス可能なツールを提供し、実用的なトレーニング要件を維持しながら再現性を確保します。
明確な評価ルールと制御された増強戦略を確立することにより、AI-Genbenchは、検出方法とスケーラブルなソリューションの意味のある比較を可能にします。
コードとデータは、再現性を確保し、新しい合成ジェネレーターの上昇に対応するための堅牢なフォレンジック検出器の開発をサポートするために公開されています。

要約(オリジナル)

The rapid advancement of generative AI has revolutionized image creation, enabling high-quality synthesis from text prompts while raising critical challenges for media authenticity. We present Ai-GenBench, a novel benchmark designed to address the urgent need for robust detection of AI-generated images in real-world scenarios. Unlike existing solutions that evaluate models on static datasets, Ai-GenBench introduces a temporal evaluation framework where detection methods are incrementally trained on synthetic images, historically ordered by their generative models, to test their ability to generalize to new generative models, such as the transition from GANs to diffusion models. Our benchmark focuses on high-quality, diverse visual content and overcomes key limitations of current approaches, including arbitrary dataset splits, unfair comparisons, and excessive computational demands. Ai-GenBench provides a comprehensive dataset, a standardized evaluation protocol, and accessible tools for both researchers and non-experts (e.g., journalists, fact-checkers), ensuring reproducibility while maintaining practical training requirements. By establishing clear evaluation rules and controlled augmentation strategies, Ai-GenBench enables meaningful comparison of detection methods and scalable solutions. Code and data are publicly available to ensure reproducibility and to support the development of robust forensic detectors to keep pace with the rise of new synthetic generators.

arxiv情報

著者 Lorenzo Pellegrini,Davide Cozzolino,Serafino Pandolfini,Davide Maltoni,Matteo Ferrara,Luisa Verdoliva,Marco Prati,Marco Ramilli
発行日 2025-04-29 15:41:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AI-GenBench: A New Ongoing Benchmark for AI-Generated Image Detection はコメントを受け付けていません

FLIM-based Salient Object Detection Networks with Adaptive Decoders

要約

Salient Object Detection(SOD)メソッドは、画像内で際立っているオブジェクトを見つけ、顕著性マップでより高い値をピクセルに割り当て、予測されたセグメンテーションマスクを出力するマップを二等式にすることができます。
最近の傾向は、SODタスクの深いニューラルネットワークではなく、事前に訓練された軽量モデルを調査し、限られた計算リソースの下でアプリケーションに対処することです。
これに関連して、画像マーカー(FLIM)から学習する機能という名前の方法論を使用して軽量ネットワークを調査しました。これは、エンコーダーのカーネルが、いくつかの代表的な画像の識別領域のマーカーピクセルから推定できると仮定しています。
この作業では、フリムエンコーダーと適応型デコーダーを組み合わせることにより、SODについて、軽量モデルの数百倍軽量モデルのフライ級ネットワークを提案します。
このようなフリムネットワークは、3〜4つの代表的な画像のみでトレーニングされ、バックプロパゲーションがないため、ラベル付きデータ制約の下でのアプリケーションにもモデルが適しています。
5つの適応デコーダーを研究します。
それらの2つはここで紹介されています。
ピクセルごとに1つのニューロンに依存している以前のものとは異なる重みを共有すると、新しい適応デコーダーのヒューリスティック関数は、ピクセルあたりの各ニューロンの重みを推定します。
フリムモデルを適応デコーダーと比較して、バックプロパゲーションによって訓練されたデコーダーを備えた最先端の2つのフリムネットワークと、デコーダーの重量を定義する1つのフリムネットワークを備えた2つの軽量ネットワークを備えた2つの挑戦的なSODタスクの適応デコーダーを比較します。
この実験は、ベースライン上の提案されたネットワークの利点を示しており、新しいアプリケーションでそのような方法をさらに調査することの重要性を明らかにしています。

要約(オリジナル)

Salient Object Detection (SOD) methods can locate objects that stand out in an image, assign higher values to their pixels in a saliency map, and binarize the map outputting a predicted segmentation mask. A recent tendency is to investigate pre-trained lightweight models rather than deep neural networks in SOD tasks, coping with applications under limited computational resources. In this context, we have investigated lightweight networks using a methodology named Feature Learning from Image Markers (FLIM), which assumes that the encoder’s kernels can be estimated from marker pixels on discriminative regions of a few representative images. This work proposes flyweight networks, hundreds of times lighter than lightweight models, for SOD by combining a FLIM encoder with an adaptive decoder, whose weights are estimated for each input image by a given heuristic function. Such FLIM networks are trained from three to four representative images only and without backpropagation, making the models suitable for applications under labeled data constraints as well. We study five adaptive decoders; two of them are introduced here. Differently from the previous ones that rely on one neuron per pixel with shared weights, the heuristic functions of the new adaptive decoders estimate the weights of each neuron per pixel. We compare FLIM models with adaptive decoders for two challenging SOD tasks with three lightweight networks from the state-of-the-art, two FLIM networks with decoders trained by backpropagation, and one FLIM network whose labeled markers define the decoder’s weights. The experiments demonstrate the advantages of the proposed networks over the baselines, revealing the importance of further investigating such methods in new applications.

arxiv情報

著者 Gilson Junior Soares,Matheus Abrantes Cerqueira,Jancarlo F. Gomes,Laurent Najman,Silvio Jamil F. Guimarães,Alexandre Xavier Falcão
発行日 2025-04-29 15:44:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FLIM-based Salient Object Detection Networks with Adaptive Decoders はコメントを受け付けていません

EgoAgent: A Joint Predictive Agent Model in Egocentric Worlds

要約

この論文では、人間のように振る舞うエージェントモデルを学習するタスクに対処します。これは、エゴセントリックな世界で共同で知覚、予測、行動することができます。
以前の方法は通常、これらの3つの能力のために個別のモデルをトレーニングします。これにより、互いに学習することができません。
この論文では、Egoagentという名前の共同予測エージェントモデルを提案します。これは、世界を代表し、将来の状態を予測し、単一の変圧器内で合理的な行動をとることを同時に学習します。
Egoagentは、これらの能力の因果的かつ時間的に絡み合った性質から学ぶための2つのイノベーションを導入します。(1)因果的注意メカニズムを備えた状態とアクションのインターリーブされたシーケンシャルモデリング、および(2)時間的非対称予測因子障害者分岐を特徴とする共同埋め込み – アクション予測アーキテクチャ。
Jepaに基づいてこれらの設計を統合すると、Egoagentはこれらの機能をまとまりのある学習フレームワークに統合します。
画像分類、エゴセントリックの将来の状態予測、3Dヒューマンモーション予測タスクなどの代表的なタスクに関するエゴーゲントの包括的な評価は、私たちの方法の優位性を示しています。
コードと訓練されたモデルは、再現性のためにリリースされます。

要約(オリジナル)

This paper addresses the task of learning an agent model behaving like humans, which can jointly perceive, predict, and act in egocentric worlds. Previous methods usually train separate models for these three abilities, which prevents them from learning from each other. In this paper, we propose a joint predictive agent model, named EgoAgent, that simultaneously learns to represent the world, predict future states, and take reasonable actions within a single transformer. EgoAgent introduces two innovations to learn from the causal and temporally intertwined nature of these abilities: (1) Interleaved sequential modeling of states and actions with the causal attention mechanism, and (2) A joint embedding-action-prediction architecture featuring temporal asymmetric predictor-observer branches. Integrating these designs based on JEPA, EgoAgent unifies these capabilities in a cohesive learning framework. Comprehensive evaluations of EgoAgent on representative tasks such as image classification, egocentric future state prediction, and 3D human motion prediction tasks demonstrate the superiority of our method. The code and trained model will be released for reproducibility.

arxiv情報

著者 Lu Chen,Yizhou Wang,Shixiang Tang,Qianhong Ma,Tong He,Wanli Ouyang,Xiaowei Zhou,Hujun Bao,Sida Peng
発行日 2025-04-29 15:45:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | EgoAgent: A Joint Predictive Agent Model in Egocentric Worlds はコメントを受け付けていません

Video-Bench: Human-Aligned Video Generation Benchmark

要約

ビデオ生成評価は、生成モデルが視覚的に現実的で高品質のビデオを生成しながら、人間の期待に合わせて確実に生成するために不可欠です。
現在のビデオ生成ベンチマークは、2つの主要なカテゴリに分類されます。メトリックと埋め込みを使用して、複数の次元で生成されたビデオ品質を評価しますが、人間の判断との整合性を欠いていることが多い従来のベンチマークに分類されます。
そして、大規模な言語モデル(LLM)ベースのベンチマークは、人間のような推論が可能ですが、ビデオ品質のメトリックとクロスモーダルの一貫性の限られた理解によって制約されています。
これらの課題に対処し、人間の好みとより適切なベンチマークを確立するために、このペーパーでは、豊富なプロンプトスイートと広範な評価の寸法を備えた包括的なベンチマークであるビデオベンチを紹介します。
このベンチマークは、生成モデルのビデオ生成評価に関連するすべての次元にわたってMLLMを体系的に活用する最初の試みを表しています。
少数のショットスコアリングとクエリチェーンテクニックを組み込むことにより、ビデオベンチは、生成されたビデオ評価に構造化されたスケーラブルなアプローチを提供します。
SORAを含む高度なモデルの実験は、ビデオベンチがすべての次元にわたって人間の好みと優れた整合性を達成することを示しています。
さらに、私たちのフレームワークの評価が人間の評価から分かれている場合、それは一貫してより客観的で正確な洞察を提供し、従来の人間の判断よりもさらに大きな潜在的な利点を示唆しています。

要約(オリジナル)

Video generation assessment is essential for ensuring that generative models produce visually realistic, high-quality videos while aligning with human expectations. Current video generation benchmarks fall into two main categories: traditional benchmarks, which use metrics and embeddings to evaluate generated video quality across multiple dimensions but often lack alignment with human judgments; and large language model (LLM)-based benchmarks, though capable of human-like reasoning, are constrained by a limited understanding of video quality metrics and cross-modal consistency. To address these challenges and establish a benchmark that better aligns with human preferences, this paper introduces Video-Bench, a comprehensive benchmark featuring a rich prompt suite and extensive evaluation dimensions. This benchmark represents the first attempt to systematically leverage MLLMs across all dimensions relevant to video generation assessment in generative models. By incorporating few-shot scoring and chain-of-query techniques, Video-Bench provides a structured, scalable approach to generated video evaluation. Experiments on advanced models including Sora demonstrate that Video-Bench achieves superior alignment with human preferences across all dimensions. Moreover, in instances where our framework’s assessments diverge from human evaluations, it consistently offers more objective and accurate insights, suggesting an even greater potential advantage over traditional human judgment.

arxiv情報

著者 Hui Han,Siyuan Li,Jiaqi Chen,Yiwen Yuan,Yuling Wu,Chak Tou Leong,Hanwen Du,Junchen Fu,Youhua Li,Jie Zhang,Chi Zhang,Li-jia Li,Yongxin Ni
発行日 2025-04-29 15:56:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Video-Bench: Human-Aligned Video Generation Benchmark はコメントを受け付けていません

CBM-RAG: Demonstrating Enhanced Interpretability in Radiology Report Generation with Multi-Agent RAG and Concept Bottleneck Models

要約

生成人工知能(AI)の進歩は、放射線学のワークフローを自動化するための大きな可能性を秘めていますが、解釈可能性と信頼性の課題は臨床採用を妨げます。
このホワイトペーパーでは、コンセプトボトルネックモデル(CBM)とマルチエージェント検索の高級生成(RAG)システムを組み合わせて、AIのパフォーマンスを臨床的説明可能性と組み合わせた自動放射線レポート生成フレームワークを紹介します。
CBMSマップ胸部X線の特徴は、人間の理解可能な臨床概念に合わせて、透明な疾患の分類を可能にします。
一方、RAGシステムは、マルチエージェントのコラボレーションと外部知識を統合して、文脈的に豊富な証拠に基づいたレポートを作成します。
私たちのデモンストレーションは、解釈可能な予測を提供し、幻覚を緩和し、精度、信頼、ユーザビリティの課題に対処するインタラクティブなインターフェイスを使用して高品質のテーラードレポートを生成するシステムの能力を示しています。
このフレームワークは、診断の一貫性を改善し、実用的な洞察を持つ放射線科医に力を与えるための経路を提供します。

要約(オリジナル)

Advancements in generative Artificial Intelligence (AI) hold great promise for automating radiology workflows, yet challenges in interpretability and reliability hinder clinical adoption. This paper presents an automated radiology report generation framework that combines Concept Bottleneck Models (CBMs) with a Multi-Agent Retrieval-Augmented Generation (RAG) system to bridge AI performance with clinical explainability. CBMs map chest X-ray features to human-understandable clinical concepts, enabling transparent disease classification. Meanwhile, the RAG system integrates multi-agent collaboration and external knowledge to produce contextually rich, evidence-based reports. Our demonstration showcases the system’s ability to deliver interpretable predictions, mitigate hallucinations, and generate high-quality, tailored reports with an interactive interface addressing accuracy, trust, and usability challenges. This framework provides a pathway to improving diagnostic consistency and empowering radiologists with actionable insights.

arxiv情報

著者 Hasan Md Tusfiqur Alam,Devansh Srivastav,Abdulrahman Mohamed Selim,Md Abdul Kadir,Md Moktadiurl Hoque Shuvo,Daniel Sonntag
発行日 2025-04-29 16:14:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.IR | CBM-RAG: Demonstrating Enhanced Interpretability in Radiology Report Generation with Multi-Agent RAG and Concept Bottleneck Models はコメントを受け付けていません

Classifier-to-Bias: Toward Unsupervised Automatic Bias Detection for Visual Classifiers

要約

Webから事前に訓練されたモデルをダウンロードする人は、そのバイアスに注意する必要があります。
バイアス識別のための既存のアプローチは、関心のあるタスクのラベルを含むデータセットに依存しています。これは、非専門家がアクセスできない、または収集するために必要なリソースを持たない場合があります。これにより、モデルバイアスを特定できるタスクの数が大幅に制限されます。
この作業では、分類器からバイアス(C2B)を提示します。これは、ラベル付きデータにアクセスせずに機能する最初のバイアス発見フレームワークです。ターゲット分類モデルのバイアスを識別するための分類タスクのテキストの説明のみに依存しています。
この説明は、バイアス提案と、タスク固有のターゲットラベルと一緒にバイアスを描いた対応するキャプションを生成するために、大規模な言語モデルに供給されます。
検索モデルは、これらのキャプションの画像を収集し、モデルW.R.Tの精度を評価するために使用されます。
与えられたバイアス。
C2Bはトレーニングなしで、注釈を必要とせず、バイアスのリストに制約がなく、分類タスクで事前に訓練されたモデルに適用できます。
2つの公開されたデータセットでの実験は、C2Bが元のデータセットのバイアスを超えてバイアスを発見し、タスク固有の注釈に依存する最近の最先端のバイアス検出ベースラインを上回ることを示しており、タスクに拡大していない監視されていないバイアス検出に対処するための有望な第一歩です。

要約(オリジナル)

A person downloading a pre-trained model from the web should be aware of its biases. Existing approaches for bias identification rely on datasets containing labels for the task of interest, something that a non-expert may not have access to, or may not have the necessary resources to collect: this greatly limits the number of tasks where model biases can be identified. In this work, we present Classifier-to-Bias (C2B), the first bias discovery framework that works without access to any labeled data: it only relies on a textual description of the classification task to identify biases in the target classification model. This description is fed to a large language model to generate bias proposals and corresponding captions depicting biases together with task-specific target labels. A retrieval model collects images for those captions, which are then used to assess the accuracy of the model w.r.t. the given biases. C2B is training-free, does not require any annotations, has no constraints on the list of biases, and can be applied to any pre-trained model on any classification task. Experiments on two publicly available datasets show that C2B discovers biases beyond those of the original datasets and outperforms a recent state-of-the-art bias detection baseline that relies on task-specific annotations, being a promising first step toward addressing task-agnostic unsupervised bias detection.

arxiv情報

著者 Quentin Guimard,Moreno D’Incà,Massimiliano Mancini,Elisa Ricci
発行日 2025-04-29 16:19:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Classifier-to-Bias: Toward Unsupervised Automatic Bias Detection for Visual Classifiers はコメントを受け付けていません

Omni-IML: Towards Unified Image Manipulation Localization

要約

既存の画像操作のローカリゼーション(IML)メソッドは、主にタスク固有の設計に大きく依存しており、ターゲットIMLタスクでのみパフォーマンスを発揮しますが、複数のIMLタスクでの共同トレーニングは大きなパフォーマンスの劣化を引き起こし、実際のアプリケーションを妨げます。
この目的のために、私たちは、多様なタスク全体でIMLを統一するように設計された最初のジェネラリストモデルであるOmni-IMLを提案します。
具体的には、OMNI-IMLは、3つの重要なコンポーネントを介して一般化を実現します。(1)サンプルごとの最適なエンコーディングモダリティを適応的に選択するモーダルゲートエンコーダー、(2)デコーダーフィルターを手元のタスクに動的に調整する動的な重量デコーダー、および(3)アノマリー強化モジュールを習得するための監視を強調するために、その異常な拡張モジュールを強化するために、その異常な拡張モジュールを強化します。
特徴。
ローカリゼーションを超えて、改ざんされた画像の解釈をサポートするために、改ざんされたアーティファクトの自然言語の説明を含む大規模な高品質のデータセットであるOMNI-273Kを構築します。
これは、自動、チェーンオブシェアの注釈手法を通じて注釈が付けられています。
また、これらの記述的注釈をよりよく利用するために、シンプルな効果的な解釈モジュールを設計します。
当社の広範な実験は、単一のOMNI-IMLモデルが4つの主要なIMLタスクすべてにわたって最先端のパフォーマンスを達成し、実用的な展開のための貴重なソリューションと画像法医学におけるジェネラリストモデルの有望な方向性を提供することを示しています。
コードとデータセットは公開されます。

要約(オリジナル)

Existing Image Manipulation Localization (IML) methods mostly rely heavily on task-specific designs, making them perform well only on the target IML task, while joint training on multiple IML tasks causes significant performance degradation, hindering real applications. To this end, we propose Omni-IML, the first generalist model designed to unify IML across diverse tasks. Specifically, Omni-IML achieves generalization through three key components: (1) a Modal Gate Encoder, which adaptively selects the optimal encoding modality per sample, (2) a Dynamic Weight Decoder, which dynamically adjusts decoder filters to the task at hand, and (3) an Anomaly Enhancement module that leverages box supervision to highlight the tampered regions and facilitate the learning of task-agnostic features. Beyond localization, to support interpretation of the tampered images, we construct Omni-273k, a large high-quality dataset that includes natural language descriptions of tampered artifact. It is annotated through our automatic, chain-of-thoughts annotation technique. We also design a simple-yet-effective interpretation module to better utilize these descriptive annotations. Our extensive experiments show that our single Omni-IML model achieves state-of-the-art performance across all four major IML tasks, providing a valuable solution for practical deployment and a promising direction of generalist models in image forensics. Our code and dataset will be publicly available.

arxiv情報

著者 Chenfan Qu,Yiwu Zhong,Fengjun Guo,Lianwen Jin
発行日 2025-04-29 16:31:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG | Omni-IML: Towards Unified Image Manipulation Localization はコメントを受け付けていません

End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation

要約

オーディオディープフェイクは、デジタルセキュリティと信頼に対する脅威の高まりを表しており、高度な生成モデルを活用して、本物の人間の声を密接に模倣する合成スピーチを生成します。
このような操作を検出することは、テスト中に遭遇するスプーフィング方法がトレーニング中に見られるものとは異なる場合があるオープンワールド条件下では特に困難です。
この作業では、生の波形で直接動作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案します。
私たちのモデルであるRawnetliteは、手作りの前処理なしでスペクトルと時間の両方の特徴をキャプチャするように設計された軽量の畳み込みと一時的なアーキテクチャです。
堅牢性を高めるために、複数のドメインからのデータを組み合わせ、焦点損失を採用して困難なサンプルまたは曖昧なサンプルを強調するトレーニング戦略を導入します。
さらに、コーデックベースの操作を組み込み、波形レベルのオーディオ増強(例:ピッチシフト、ノイズ、時間の伸びなど)を適用すると、現実的な音響条件下での大幅な一般化の改善が得られることを実証します。
提案されたモデルは、ドメイン内データ(FakeRorreal)で99.7%以上のF1および0.25%EERを達成し、困難な分散テストセット(AVSPOOF2021 + CODECFAKE)で最大83.4%F1を獲得します。
これらの調査結果は、多様なトレーニングデータ、カスタマイズされた客観的機能、および弾力性のある一般化可能なオーディオ偽造検出器の構築におけるオーディオ増強の重要性を強調しています。
コードモデルと前処理されたモデルは、https://iplab.dmi.unict.it/mfs/deepfakes/paperrawnet2025/で入手できます。

要約(オリジナル)

Audio deepfakes represent a growing threat to digital security and trust, leveraging advanced generative models to produce synthetic speech that closely mimics real human voices. Detecting such manipulations is especially challenging under open-world conditions, where spoofing methods encountered during testing may differ from those seen during training. In this work, we propose an end-to-end deep learning framework for audio deepfake detection that operates directly on raw waveforms. Our model, RawNetLite, is a lightweight convolutional-recurrent architecture designed to capture both spectral and temporal features without handcrafted preprocessing. To enhance robustness, we introduce a training strategy that combines data from multiple domains and adopts Focal Loss to emphasize difficult or ambiguous samples. We further demonstrate that incorporating codec-based manipulations and applying waveform-level audio augmentations (e.g., pitch shifting, noise, and time stretching) leads to significant generalization improvements under realistic acoustic conditions. The proposed model achieves over 99.7% F1 and 0.25% EER on in-domain data (FakeOrReal), and up to 83.4% F1 with 16.4% EER on a challenging out-of-distribution test set (AVSpoof2021 + CodecFake). These findings highlight the importance of diverse training data, tailored objective functions and audio augmentations in building resilient and generalizable audio forgery detectors. Code and pretrained models are available at https://iplab.dmi.unict.it/mfs/Deepfakes/PaperRawNet2025/.

arxiv情報

著者 Andrea Di Pierno,Luca Guarnera,Dario Allegra,Sebastiano Battiato
発行日 2025-04-29 16:38:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS | End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation はコメントを受け付けていません

NoPain: No-box Point Cloud Attack via Optimal Transport Singular Boundary

要約

敵対的な攻撃は、敵対的なサンプルに対する深いモデルの脆弱性を活用します。
既存のポイントクラウド攻撃者は特定のモデルに合わせて調整され、ホワイトボックスまたはブラックボックス設定の勾配に基づいて摂動を繰り返し最適化します。
彼らの有望な攻撃性能にもかかわらず、彼らはしばしば、代理モデルの特定のパラメーターを過剰に適合させるため、転送可能な敵対的なサンプルを生成するのに苦労しています。
この問題を克服するために、焦点をデータ分布自体に移し、Nopainという名前の新しいアプローチを導入します。これは、最適な輸送(OT)を使用して、ネットワーククロスポイントクラウド攻撃のためにデータマニホールドの固有の特異な境界を識別します。
具体的には、最初にノイズからターゲットフィーチャスペースへのOTマッピングを計算し、次に異なる位置を見つけることにより、特異な境界を特定します。
最後に、敵対的な点雲を生成するために、特異な境界に沿ってサンプリングします。
特異な境界が決定されると、Nopainは、代理分類子からの反復的な更新やガイダンスを必要とせずに効率的に敵対的なサンプルを生成できます。
広範な実験は、提案されているエンドツーエンドの方法が、譲渡可能性と効率の両方の観点からベースラインアプローチを上回ると同時に、防衛戦略に対してさえ顕著な利点を維持することを示しています。
コードとモデルはhttps://github.com/cognaclee/nopainで入手できます

要約(オリジナル)

Adversarial attacks exploit the vulnerability of deep models against adversarial samples. Existing point cloud attackers are tailored to specific models, iteratively optimizing perturbations based on gradients in either a white-box or black-box setting. Despite their promising attack performance, they often struggle to produce transferable adversarial samples due to overfitting the specific parameters of surrogate models. To overcome this issue, we shift our focus to the data distribution itself and introduce a novel approach named NoPain, which employs optimal transport (OT) to identify the inherent singular boundaries of the data manifold for cross-network point cloud attacks. Specifically, we first calculate the OT mapping from noise to the target feature space, then identify singular boundaries by locating non-differentiable positions. Finally, we sample along singular boundaries to generate adversarial point clouds. Once the singular boundaries are determined, NoPain can efficiently produce adversarial samples without the need of iterative updates or guidance from the surrogate classifiers. Extensive experiments demonstrate that the proposed end-to-end method outperforms baseline approaches in terms of both transferability and efficiency, while also maintaining notable advantages even against defense strategies. Code and model are available at https://github.com/cognaclee/nopain

arxiv情報

著者 Zezeng Li,Xiaoyu Du,Na Lei,Liming Chen,Weimin Wang
発行日 2025-04-29 16:41:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | NoPain: No-box Point Cloud Attack via Optimal Transport Singular Boundary はコメントを受け付けていません