Farseer: A Refined Scaling Law in Large Language Models

要約

大規模な言語モデル(LLM)のトレーニングは非常に高価であり、小規模な実験からの洞察がリソース集約型の生産システムに移行できず、それによって効率的なイノベーションを妨げる重要なスケーリングギャップを作成します。
これを橋渡しするために、Scales全体で予測精度を強化する斬新で洗練されたスケーリング法則であるFarseerを紹介します。
モデル損失面$ l(n、d)$を体系的に構築することにより、Farseerは以前の法律(Chinchillaの法則など)よりも経験的データにより大幅に適切に適合します。
私たちの方法論は、正確で堅牢で非常に一般化可能な予測をもたらし、優れた外挿機能を実証し、外挿エラーを433 \%減らすことによりチンチラの法則を改善します。
これにより、すべての$(n、d)$の設定で競合するトレーニング戦略の信頼できる評価が可能になり、小規模なアブレーション研究からの結論を自信を持って推定して大規模なパフォーマンスを予測できるようになります。
さらに、Farseerは最適な計算割り当てに関する新しい洞察を提供し、現代のLLMトレーニングの微妙な要求をよりよく反映しています。
アプローチを検証するために、多様なスケールと構成にわたって約1,000 LLMの広範なスイートをトレーニングし、約300万個のNVIDIA H100 GPU時間を消費しました。
https://github.com/farseer-scaling-law/farseerで、すべてのモデル、データ、結果、ログを包括的にオープンソーシングして、さらなる研究を促進しています。

要約(オリジナル)

Training Large Language Models (LLMs) is prohibitively expensive, creating a critical scaling gap where insights from small-scale experiments often fail to transfer to resource-intensive production systems, thereby hindering efficient innovation. To bridge this, we introduce Farseer, a novel and refined scaling law offering enhanced predictive accuracy across scales. By systematically constructing a model loss surface $L(N,D)$, Farseer achieves a significantly better fit to empirical data than prior laws (e.g., Chinchilla’s law). Our methodology yields accurate, robust, and highly generalizable predictions, demonstrating excellent extrapolation capabilities, improving upon Chinchilla’s law by reducing extrapolation error by 433\%. This allows for the reliable evaluation of competing training strategies across all $(N,D)$ settings, enabling conclusions from small-scale ablation studies to be confidently extrapolated to predict large-scale performance. Furthermore, Farseer provides new insights into optimal compute allocation, better reflecting the nuanced demands of modern LLM training. To validate our approach, we trained an extensive suite of approximately 1,000 LLMs across diverse scales and configurations, consuming roughly 3 million NVIDIA H100 GPU hours. We are comprehensively open-sourcing all models, data, results, and logs at https://github.com/Farseer-Scaling-Law/Farseer to foster further research.

arxiv情報

著者 Houyi Li,Wenzhen Zheng,Qiufeng Wang,Zhenyu Ding,Haoying Wang,Zili Wang,Shijie Xuyang,Ning Ding,Shuigeng Zhou,Xiangyu Zhang,Daxin Jiang
発行日 2025-06-12 17:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2 | Farseer: A Refined Scaling Law in Large Language Models はコメントを受け付けていません

Principled Approaches for Extending Neural Architectures to Function Spaces for Operator Learning

要約

連続時間動的システムと部分微分方程式(PDE)によって記述されているような幅広い科学的問題は、関数空間に自然に配合されています。
機能空間は通常無限の次元ですが、深い学習は、有限の次元空間間のマッピングに焦点を当てたコンピュータービジョンと自然言語処理のアプリケーションを通じて主に進歩しています。
データの性質におけるこのような根本的な格差は、他の分野で見られるように、科学的応用で同等のレベルの成功を達成することから、ニューラルネットワークを制限しています。
ニューラル演算子は、ニューラルネットワークを機能空間間のマッピングに一般化する原則的な方法であり、科学的問題に対する深い学習の変革的影響を再現するための経路を提供します。
たとえば、神経演算子は、PDEのクラス全体のソリューション演算子、たとえば、境界条件、係数関数、ジオメトリを持つ物理システムについて学習できます。
Deep Learningの成功の重要な要素は、広範な経験的テストを通じて神経アーキテクチャの慎重な工学です。
これらの神経アーキテクチャを神経演算子に翻訳すると、オペレーターがこれらの同じ経験的最適化を享受できるようになります。
ただし、以前のニューラル演算子アーキテクチャは、既存のニューラルネットワークアーキテクチャの拡張として直接導出されていないスタンドアロンモデルとして導入されることがよくあります。
この論文では、無限の次元関数空間間のマッピングの実用的な実装を構築するための重要な原則を特定し、蒸留します。
これらの原則を使用して、最小限の変更でいくつかの一般的なニューラルアーキテクチャを神経演算子に変換するためのレシピを提案します。
このペーパーは、このプロセスを通じて開業医を導くことを目的としており、神経オペレーターを実際に機能させるための手順を詳述しています。
私たちのコードは、https://github.com/neuraloperator/nns-to-nosで見つけることができます

要約(オリジナル)

A wide range of scientific problems, such as those described by continuous-time dynamical systems and partial differential equations (PDEs), are naturally formulated on function spaces. While function spaces are typically infinite-dimensional, deep learning has predominantly advanced through applications in computer vision and natural language processing that focus on mappings between finite-dimensional spaces. Such fundamental disparities in the nature of the data have limited neural networks from achieving a comparable level of success in scientific applications as seen in other fields. Neural operators are a principled way to generalize neural networks to mappings between function spaces, offering a pathway to replicate deep learning’s transformative impact on scientific problems. For instance, neural operators can learn solution operators for entire classes of PDEs, e.g., physical systems with different boundary conditions, coefficient functions, and geometries. A key factor in deep learning’s success has been the careful engineering of neural architectures through extensive empirical testing. Translating these neural architectures into neural operators allows operator learning to enjoy these same empirical optimizations. However, prior neural operator architectures have often been introduced as standalone models, not directly derived as extensions of existing neural network architectures. In this paper, we identify and distill the key principles for constructing practical implementations of mappings between infinite-dimensional function spaces. Using these principles, we propose a recipe for converting several popular neural architectures into neural operators with minimal modifications. This paper aims to guide practitioners through this process and details the steps to make neural operators work in practice. Our code can be found at https://github.com/neuraloperator/NNs-to-NOs

arxiv情報

著者 Julius Berner,Miguel Liu-Schiaffini,Jean Kossaifi,Valentin Duruisseaux,Boris Bonev,Kamyar Azizzadenesheli,Anima Anandkumar
発行日 2025-06-12 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NA, math.FA, math.NA | Principled Approaches for Extending Neural Architectures to Function Spaces for Operator Learning はコメントを受け付けていません

AutoMind: Adaptive Knowledgeable Agent for Automated Data Science

要約

大規模な言語モデル(LLM)エージェントは、実際のデータサイエンスの問題に対処する上で大きな可能性を示しています。
LLM駆動型のデータサイエンスエージェントは、機械学習パイプライン全体を自動化することを約束しますが、それらの実際の効果は依然として限られたままです。
既存のフレームワークは、剛性のある、事前に定義されたワークフローと柔軟性のないコーディング戦略に依存します。
その結果、彼らは比較的単純で古典的な問題にのみ優れており、人間の実践者が複雑で革新的なタスクにもたらす経験的専門知識を把握できません。
この作業では、3つの重要な進歩を通じてこれらの欠陥を克服する適応的で知識豊富なLLMエージェントフレームワークであるAutorindを紹介します。
2つの自動化されたデータサイエンスベンチマークの評価は、Automindが優れたパフォーマンスと最先端のベースラインを提供することを示しています。
追加の分析により、有利な有効性、効率性、および定性的なソリューションの品質が確認され、完全に自動化されたデータサイエンスに向けて効率的で堅牢なステップとしてAutomindを強調しています。

要約(オリジナル)

Large Language Model (LLM) agents have shown great potential in addressing real-world data science problems. LLM-driven data science agents promise to automate the entire machine learning pipeline, yet their real-world effectiveness remains limited. Existing frameworks depend on rigid, pre-defined workflows and inflexible coding strategies; consequently, they excel only on relatively simple, classical problems and fail to capture the empirical expertise that human practitioners bring to complex, innovative tasks. In this work, we introduce AutoMind, an adaptive, knowledgeable LLM-agent framework that overcomes these deficiencies through three key advances: (1) a curated expert knowledge base that grounds the agent in domain expert knowledge, (2) an agentic knowledgeable tree search algorithm that strategically explores possible solutions, and (3) a self-adaptive coding strategy that dynamically tailors code generation to task complexity. Evaluations on two automated data science benchmarks demonstrate that AutoMind delivers superior performance versus state-of-the-art baselines. Additional analyses confirm favorable effectiveness, efficiency, and qualitative solution quality, highlighting AutoMind as an efficient and robust step toward fully automated data science.

arxiv情報

著者 Yixin Ou,Yujie Luo,Jingsheng Zheng,Lanning Wei,Shuofei Qiao,Jintian Zhang,Da Zheng,Huajun Chen,Ningyu Zhang
発行日 2025-06-12 17:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG, cs.MA | AutoMind: Adaptive Knowledgeable Agent for Automated Data Science はコメントを受け付けていません

Rethinking Losses for Diffusion Bridge Samplers

要約

拡散橋は、非正規化された分布からサンプリングするための深い学習方法の有望なクラスです。
最近の作品は、RKL勾配を計算するためにレパラメーター化のトリックを使用した場合、ログ分散(LV)の損失が逆カルバック – leibler(RKL)損失を一貫して上回ることを示しています。
オンポリシーLV損失は、非学習不可能な前方プロセスを備えた拡散サンプラーの対数誘導性トリックと組み合わせると、RKL損失と同一の勾配を生成しますが、この等価性は、拡散橋や拡散係数が学習した場合には保持されません。
この洞察に基づいて、拡散ブリッジの場合、LV損失はデータ処理の不平等を介してRKL損失のように動機付けられる最適化目標を表していないと主張します。
我々の分析は、log-derivative trick(RKL-ld)でRKL損失を採用すると、これらの概念的な問題を回避するだけでなく、LVの損失を一貫して上回ることが示されています。
挑戦的なベンチマーク上のさまざまな種類の拡散橋を伴う実験結果は、RKL-LDの損失で訓練されたサンプラーがより良いパフォーマンスを達成することを示しています。
実用的な観点から、RKL-LDはハイパーパラメーターの最適化が大幅に少なくなり、より安定したトレーニング行動が得られることがわかります。

要約(オリジナル)

Diffusion bridges are a promising class of deep-learning methods for sampling from unnormalized distributions. Recent works show that the Log Variance (LV) loss consistently outperforms the reverse Kullback-Leibler (rKL) loss when using the reparametrization trick to compute rKL-gradients. While the on-policy LV loss yields identical gradients to the rKL loss when combined with the log-derivative trick for diffusion samplers with non-learnable forward processes, this equivalence does not hold for diffusion bridges or when diffusion coefficients are learned. Based on this insight we argue that for diffusion bridges the LV loss does not represent an optimization objective that can be motivated like the rKL loss via the data processing inequality. Our analysis shows that employing the rKL loss with the log-derivative trick (rKL-LD) does not only avoid these conceptual problems but also consistently outperforms the LV loss. Experimental results with different types of diffusion bridges on challenging benchmarks show that samplers trained with the rKL-LD loss achieve better performance. From a practical perspective we find that rKL-LD requires significantly less hyperparameter optimization and yields more stable training behavior.

arxiv情報

著者 Sebastian Sanokowski,Lukas Gruber,Christoph Bartmann,Sepp Hochreiter,Sebastian Lehner
発行日 2025-06-12 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Rethinking Losses for Diffusion Bridge Samplers はコメントを受け付けていません

TDS-CLIP: Temporal Difference Side Network for Efficient VideoAction Recognition

要約

最近、大規模な事前訓練を受けたビジョン言語モデル(クリップなど)は、強力な代表能力のおかげで大きな注意を払っています。
これは、研究者がこれらの大規模な事前訓練を受けたモデルから他のタスク固有のモデル、例えばビデオアクション認識(VAR)モデルに、特にサイドネットワークを活用してパラメーター効率の高い微調整(PEFT)の効率を高めることを促します。
ただし、VARの現在の転送アプローチは、アクション認識モデル自体の時間モデリング機能を活用する代わりに、凍結した知識を大規模な事前訓練モデルからアクション認識ネットワークに最小限のコストで直接転送する傾向があります。
したがって、このホワイトペーパーでは、凍結パラメーターモデルのバックプロパゲーションを回避して、知識の転送と時間モデリングのバランスをとるために、新しいメモリ効率の高い時間的差異ネットワーク(TDS-Clip)を提案します。
具体的には、モデルのグローバルな時間モデリング機能を強化するために、動きの特徴の局所的な時間的違いを効果的にキャプチャできるように、時間差アダプター(TD-Adapter)を導入します。
さらに、サイドモーションエンハンスメントアダプター(SME-ADAPTER)を設計して、提案されたサイドネットワークをビデオで効率的に学習するためにガイドし、それにより、サイドネットワークのモーション情報をキャプチャして学習する能力を向上させました。
広範な実験は、V1&V2とKinetics-400を含む3つのベンチマークデータセットで行われます。
実験結果は、私たちの方法がビデオアクション認識タスクで競争力のあるパフォーマンスを達成することを示しています。

要約(オリジナル)

Recently, large-scale pre-trained vision-language models (e.g., CLIP), have garnered significant attention thanks to their powerful representative capabilities. This inspires researchers in transferring the knowledge from these large pre-trained models to other task-specific models, e.g., Video Action Recognition (VAR) models, via particularly leveraging side networks to enhance the efficiency of parameter-efficient fine-tuning (PEFT). However, current transferring approaches in VAR tend to directly transfer the frozen knowledge from large pre-trained models to action recognition networks with minimal cost, instead of exploiting the temporal modeling capabilities of the action recognition models themselves. Therefore, in this paper, we propose a novel memory-efficient Temporal Difference Side Network (TDS-CLIP) to balance knowledge transferring and temporal modeling, avoiding backpropagation in frozen parameter models. Specifically, we introduce a Temporal Difference Adapter (TD-Adapter), which can effectively capture local temporal differences in motion features to strengthen the model’s global temporal modeling capabilities. Furthermore, we designed a Side Motion Enhancement Adapter (SME-Adapter) to guide the proposed side network in efficiently learning the rich motion information in videos, thereby improving the side network’s ability to capture and learn motion information. Extensive experiments are conducted on three benchmark datasets, including Something-Something V1&V2, and Kinetics-400. Experimental results show that our method achieves competitive performance in video action recognition tasks.

arxiv情報

著者 Bin Wang,Wentong Li,Wenqian Wang,Mingliang Gao,Runmin Cong,Wei Zhang
発行日 2025-06-12 12:37:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TDS-CLIP: Temporal Difference Side Network for Efficient VideoAction Recognition はコメントを受け付けていません

PiPViT: Patch-based Visual Interpretable Prototypes for Retinal Image Analysis

要約

背景と目的:プロトタイプベースの方法は、細粒のパートプロトタイプを学習することにより、解釈性を向上させます。
ただし、入力ピクセル空間での視覚化は、人間の理解可能なバイオマーカーと常に一致するわけではありません。
さらに、よく知られているプロトタイプベースのアプローチは、通常、バイオマーカーと病変の存在と範囲の両方が重要である医療イメージングではあまり解釈できない非常に細いプロトタイプを学習します。
方法:これらの課題に対処するために、画像認識のための本質的に解釈可能なプロトタイプモデルであるPIPVIT(パッチベースの視覚的解釈可能なプロトタイプ)を提案します。
ビジョントランス(VIT)を活用して、PIPVITはパッチ間で長距離依存関係をキャプチャして、画像レベルのラベルを使用してのみ病変範囲を近似する堅牢で人間の解釈可能なプロトタイプを学習します。
さらに、PIPVITは、コントラストの学習と多解像度入力処理の恩恵を受け、スケール全体のバイオマーカーの効果的なローカリゼーションを可能にします。
結果:4つのデータセットで網膜OCT画像分類でPIPVITを評価しました。ここでは、より意味のある説明を提供しながら、最先端の方法と比較して競争力のある定量的パフォーマンスを達成しました。
さらに、ホールドアウトテストセットの定量的評価は、学習したプロトタイプが意味的および臨床的に関連していることを確認しています。
PIPVITは、その決定を透過的に説明し、臨床医が診断結果を理解するのを支援できると考えています。
githubページ:https://github.com/marziehoghbaie/pipvit

要約(オリジナル)

Background and Objective: Prototype-based methods improve interpretability by learning fine-grained part-prototypes; however, their visualization in the input pixel space is not always consistent with human-understandable biomarkers. In addition, well-known prototype-based approaches typically learn extremely granular prototypes that are less interpretable in medical imaging, where both the presence and extent of biomarkers and lesions are critical. Methods: To address these challenges, we propose PiPViT (Patch-based Visual Interpretable Prototypes), an inherently interpretable prototypical model for image recognition. Leveraging a vision transformer (ViT), PiPViT captures long-range dependencies among patches to learn robust, human-interpretable prototypes that approximate lesion extent only using image-level labels. Additionally, PiPViT benefits from contrastive learning and multi-resolution input processing, which enables effective localization of biomarkers across scales. Results: We evaluated PiPViT on retinal OCT image classification across four datasets, where it achieved competitive quantitative performance compared to state-of-the-art methods while delivering more meaningful explanations. Moreover, quantitative evaluation on a hold-out test set confirms that the learned prototypes are semantically and clinically relevant. We believe PiPViT can transparently explain its decisions and assist clinicians in understanding diagnostic outcomes. Github page: https://github.com/marziehoghbaie/PiPViT

arxiv情報

著者 Marzieh Oghbaie,Teresa Araújoa,Hrvoje Bogunović
発行日 2025-06-12 12:58:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | PiPViT: Patch-based Visual Interpretable Prototypes for Retinal Image Analysis はコメントを受け付けていません

Consistent Story Generation with Asymmetry Zigzag Sampling

要約

テキストからイメージの生成モデルは、テキストの説明から高品質の画像の作成に大きな進歩を遂げましたが、視覚的なストーリーテリングの基本的な要件である複数の画像にわたって主題の一貫性を維持することに苦労し続けています。
既存の方法は、リソース集約型の大規模なストーリー視覚化データセットのいずれかの微調整モデルによって、または世代を越えて情報を共有するトレーニングなしのテクニックを使用して、まだ限られた成功をもたらすことにより、これに対処しようとします。
このペーパーでは、非対称プロンプトと視覚的な共有を使用したZigzagサンプリングと呼ばれる新しいトレーニングフリーサンプリング戦略を紹介し、視覚的なストーリー生成における主題の一貫性を高めます。
私たちのアプローチでは、被験者の特性を保持するために非対称のプロンプトを交互に拡大するZigzagサンプリングメカニズムを提案し、視覚共有モジュールは生成された画像間で視覚的なキューを転送して、一貫性をさらに強制します。
定量的メトリックと定性的評価の両方に基づいた実験結果は、私たちの方法が、コヒーレントで一貫した視覚ストーリーを生成する際の以前のアプローチを大幅に上回ることを示しています。
このコードは、https://github.com/mingxiao-li/asymmetry-zigzag-storydiffusionで入手できます。

要約(オリジナル)

Text-to-image generation models have made significant progress in producing high-quality images from textual descriptions, yet they continue to struggle with maintaining subject consistency across multiple images, a fundamental requirement for visual storytelling. Existing methods attempt to address this by either fine-tuning models on large-scale story visualization datasets, which is resource-intensive, or by using training-free techniques that share information across generations, which still yield limited success. In this paper, we introduce a novel training-free sampling strategy called Zigzag Sampling with Asymmetric Prompts and Visual Sharing to enhance subject consistency in visual story generation. Our approach proposes a zigzag sampling mechanism that alternates between asymmetric prompting to retain subject characteristics, while a visual sharing module transfers visual cues across generated images to %further enforce consistency. Experimental results, based on both quantitative metrics and qualitative evaluations, demonstrate that our method significantly outperforms previous approaches in generating coherent and consistent visual stories. The code is available at https://github.com/Mingxiao-Li/Asymmetry-Zigzag-StoryDiffusion.

arxiv情報

著者 Mingxiao Li,Mang Ning,Marie-Francine Moens
発行日 2025-06-12 13:02:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Consistent Story Generation with Asymmetry Zigzag Sampling はコメントを受け付けていません

ConStyX: Content Style Augmentation for Generalizable Medical Image Segmentation

要約

医療画像は通常、複数のドメインから収集され、医療画像セグメンテーションモデルの性能を損なうドメインシフトにつながります。
ドメイン一般化(DG)は、強力な一般化可能性を備えた堅牢なモデルをトレーニングすることにより、この問題に対処することを目指しています。
最近、多数のドメインランダム化ベースのDGメソッドが提案されています。
ただし、これらの方法は、次の制限に悩まされています。1)画像スタイルの摂動への排他的依存性によるドメインランダム化の制約効率、および2)モデルトレーニングに対する過剰な高級画像の悪影響の無視。
これらの問題に対処するために、一般化可能な医療画像セグメンテーションのために、コンテンツスタイルの増強(Constyx)と呼ばれる新しいドメインランダム化ベースのDGメソッドを提案します。
具体的には、constyx 1)トレーニングデータのコンテンツとスタイルを補強し、拡張トレーニングデータがより広い範囲のデータドメインをよりよくカバーできるようにし、2)モデルトレーニング中の過剰高級機能のマイナス効果を軽減しながら、十分に高度の機能をレバレッジします。
複数のドメインにわたる広範な実験は、私たちのConstyxが優れた一般化パフォーマンスを達成することを示しています。
このコードはhttps://github.com/jwxsp1/constyxで入手できます。

要約(オリジナル)

Medical images are usually collected from multiple domains, leading to domain shifts that impair the performance of medical image segmentation models. Domain Generalization (DG) aims to address this issue by training a robust model with strong generalizability. Recently, numerous domain randomization-based DG methods have been proposed. However, these methods suffer from the following limitations: 1) constrained efficiency of domain randomization due to their exclusive dependence on image style perturbation, and 2) neglect of the adverse effects of over-augmented images on model training. To address these issues, we propose a novel domain randomization-based DG method, called content style augmentation (ConStyX), for generalizable medical image segmentation. Specifically, ConStyX 1) augments the content and style of training data, allowing the augmented training data to better cover a wider range of data domains, and 2) leverages well-augmented features while mitigating the negative effects of over-augmented features during model training. Extensive experiments across multiple domains demonstrate that our ConStyX achieves superior generalization performance. The code is available at https://github.com/jwxsp1/ConStyX.

arxiv情報

著者 Xi Chen,Zhiqiang Shen,Peng Cao,Jinzhu Yang,Osmar R. Zaiane
発行日 2025-06-12 13:04:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | ConStyX: Content Style Augmentation for Generalizable Medical Image Segmentation はコメントを受け付けていません

Enhancing Deepfake Detection using SE Block Attention with CNN

要約

デジタル時代において、Deepfakeは、高度な人工知能を使用して非常に説得力のある操作コンテンツを作成し、情報の信頼性とセキュリティを損なうことにより、手ごわい挑戦を提示します。
これらの洗練された製造は、複雑さとリアリズムの伝統的な検出方法を上回ります。
この問題に対処するために、革新的なディープフェイク検出モデルを設計するために、最先端の深い学習方法論を活用することを目指しています。
ただし、Deepfake検出用に設計されたモデルのほとんどは大きく、重貯蔵と記憶消費を引き起こします。
この研究では、ディープフェイク検出のためにスクイーズと励起ブロックの注意(SE)を備えた軽量畳み込みニューラルネットワーク(CNN)を提案します。
SEブロックモジュールは、動的なチャネルごとの特徴の再調整を実行するように設計されています。
SEブロックにより、ネットワークは有益な機能を強調し、それほど有用でない機能を抑制し、より効率的で効果的な学習モジュールにつながります。
このモジュールは、ディープフェイク検出を実行するためのシンプルなシーケンシャルモデルと統合されています。
モデルのサイズは小さく、ディープフェイク検出タスクの既存のモデルと競合する精度を達成します。
このモデルは、多様な偽のフェイスデータセットのスタイルGANデータセットで、94.14%の全体的な分類精度と0.985のAUC-ROCスコアを達成しました。
提案されているアプローチは、ディープファークレンジとの闘いで最小限の計算リソースと闘い、デジタルコンテンツ検証のための効率的でスケーラブルなソリューションを開発するための有望な手段を提示します。

要約(オリジナル)

In the digital age, Deepfake present a formidable challenge by using advanced artificial intelligence to create highly convincing manipulated content, undermining information authenticity and security. These sophisticated fabrications surpass traditional detection methods in complexity and realism. To address this issue, we aim to harness cutting-edge deep learning methodologies to engineer an innovative deepfake detection model. However, most of the models designed for deepfake detection are large, causing heavy storage and memory consumption. In this research, we propose a lightweight convolution neural network (CNN) with squeeze and excitation block attention (SE) for Deepfake detection. The SE block module is designed to perform dynamic channel-wise feature recalibration. The SE block allows the network to emphasize informative features and suppress less useful ones, which leads to a more efficient and effective learning module. This module is integrated with a simple sequential model to perform Deepfake detection. The model is smaller in size and it achieves competing accuracy with the existing models for deepfake detection tasks. The model achieved an overall classification accuracy of 94.14% and AUC-ROC score of 0.985 on the Style GAN dataset from the Diverse Fake Face Dataset. Our proposed approach presents a promising avenue for combating the Deepfake challenge with minimal computational resources, developing efficient and scalable solutions for digital content verification.

arxiv情報

著者 Subhram Dasgupta,Janelle Mason,Xiaohong Yuan,Olusola Odeyomi,Kaushik Roy
発行日 2025-06-12 13:29:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Enhancing Deepfake Detection using SE Block Attention with CNN はコメントを受け付けていません

Unsourced Adversarial CAPTCHA: A Bi-Phase Adversarial CAPTCHA Framework

要約

深い学習の急速な進歩により、従来のキャプチャスキームは、深いニューラルネットワーク(DNNS)を搭載した自動攻撃に対してますます脆弱になります。
既存の敵対的な攻撃方法は、多くの場合、元の画像特性に依存しているため、人間の解釈を妨げ、初期入力画像がないシナリオの適用性を制限する歪みが生じます。
これらの課題に対処するために、攻撃者指定のテキストプロンプトに導かれた高忠実度の敵対例を生成する新しい枠組みを生成する新しいフレームワークである、協力していない敵対的なcaptcha(UAC)を提案します。
大規模な言語モデル(LLM)を活用して、UACはCaptchaの多様性を高め、ターゲットとターゲットの両方の攻撃の両方をサポートします。
ターゲットを絞った攻撃の場合、ed令の方法は、優れた画質のために拡散モデルの二重潜在変数を最適化します。
特にブラックボックスのシナリオでは、魅力的な攻撃では、バイパスの溶けた敵対的なキャプチャ(BP-UAC)を紹介します。これは、マルチモーダル勾配と効率的な誤分類のためのバイパス最適化を採用する2段階の最適化戦略です。
実験では、BP-UACが多様なシステム全体で高い攻撃の成功率を達成し、人間とDNNと区別できない自然なキャプチャを生成します。

要約(オリジナル)

With the rapid advancements in deep learning, traditional CAPTCHA schemes are increasingly vulnerable to automated attacks powered by deep neural networks (DNNs). Existing adversarial attack methods often rely on original image characteristics, resulting in distortions that hinder human interpretation and limit applicability in scenarios lacking initial input images. To address these challenges, we propose the Unsourced Adversarial CAPTCHA (UAC), a novel framework generating high-fidelity adversarial examples guided by attacker-specified text prompts. Leveraging a Large Language Model (LLM), UAC enhances CAPTCHA diversity and supports both targeted and untargeted attacks. For targeted attacks, the EDICT method optimizes dual latent variables in a diffusion model for superior image quality. In untargeted attacks, especially for black-box scenarios, we introduce bi-path unsourced adversarial CAPTCHA (BP-UAC), a two-step optimization strategy employing multimodal gradients and bi-path optimization for efficient misclassification. Experiments show BP-UAC achieves high attack success rates across diverse systems, generating natural CAPTCHAs indistinguishable to humans and DNNs.

arxiv情報

著者 Xia Du,Xiaoyuan Liu,Jizhe Zhou,Zheng Lin,Chi-man Pun,Zhe Chen,Wei Ni,Jun Luo
発行日 2025-06-12 13:30:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV | Unsourced Adversarial CAPTCHA: A Bi-Phase Adversarial CAPTCHA Framework はコメントを受け付けていません