Poster: SpiderSim: Multi-Agent Driven Theoretical Cybersecurity Simulation for Industrial Digitalization

要約

迅速な産業デジタル化により、効果的な検証方法が必要な複雑なサイバーセキュリティ要求が生じています。
サイバー範囲とシミュレーションプラットフォームは広く展開されていますが、シナリオの多様性と創造効率の制限に頻繁に直面しています。
この論文では、産業用デジタル化セキュリティ研究のための迅速かつ軽量のシナリオ生成を可能にする理論的サイバーセキュリティシミュレーションプラットフォームであるSpidersimを紹介します。
このプラットフォームでは、3つの重要な革新が導入されています。統一シナリオモデリングの構造化されたフレームワーク、自動生成のためのマルチエージェントコラボレーションメカニズム、柔軟なシナリオ構成のためのモジュラー原子セキュリティ機能です。
海洋牧場監視システムを含む複数の産業デジタル化コンテキストにわたる広範な実装試験により、効率的な生成プロセスを備えた広範なシナリオカバレッジに対するプラットフォームの能力を検証します。
強固な理論的基礎に基づいて構築され、オープンソースソフトウェアとしてリリースされたSpidersimは、産業デジタル化のための自動セキュリティテストにおけるより広範な研究開発を促進します。

要約(オリジナル)

Rapid industrial digitalization has created intricate cybersecurity demands that necessitate effective validation methods. While cyber ranges and simulation platforms are widely deployed, they frequently face limitations in scenario diversity and creation efficiency. In this paper, we present SpiderSim, a theoretical cybersecurity simulation platform enabling rapid and lightweight scenario generation for industrial digitalization security research. At its core, our platform introduces three key innovations: a structured framework for unified scenario modeling, a multi-agent collaboration mechanism for automated generation, and modular atomic security capabilities for flexible scenario composition. Extensive implementation trials across multiple industrial digitalization contexts, including marine ranch monitoring systems, validate our platform’s capacity for broad scenario coverage with efficient generation processes. Built on solid theoretical foundations and released as open-source software, SpiderSim facilitates broader research and development in automated security testing for industrial digitalization.

arxiv情報

著者 Jiaqi Li,Xizhong Guo,Yang Zhao,Lvyang Zhang,Lidong Zhai
発行日 2025-02-19 14:42:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Poster: SpiderSim: Multi-Agent Driven Theoretical Cybersecurity Simulation for Industrial Digitalization はコメントを受け付けていません

Helix-mRNA: A Hybrid Foundation Model For Full Sequence mRNA Therapeutics

要約

mRNAベースのワクチンは、製薬業界で大きな焦点となっています。
mRNAのコーディングシーケンスと、翻訳されていない領域(UTR)は、ワクチンの有効性を集合的に決定する翻訳効率、安定性、分解、およびその他の要因に強く影響を与える可能性があります。
ただし、これらの特性のmRNA配列を最適化すると、複雑な課題のままです。
既存の深い学習モデルは、多くの場合、UTRを見落とすコード領域の最適化のみに焦点を当てています。
これらの課題に対処するために、構造化された状態空間ベースのハイブリッドモデルであるHelix-MRNAを提示します。
最初のトレーニング前に加えて、2番目のトレーニング前の段階では、高品質のデータでモデルを専門とすることができます。
コドン分離を伴うmRNA配列の単一ヌクレオチドトークン化を採用しており、元のmRNA配列からの以前の生物学的および構造情報が失われないようにします。
私たちのモデルであるHelix-MRNAは、UTRとコーディング領域のプロパティの両方を分析する際に既存の方法を上回ります。
既存の基礎モデルのパラメーターの10%のみを使用しながら、現在のアプローチよりも6倍長いシーケンスを処理できます。
その予測機能は、すべてのmRNA領域に拡張されます。
モデル(https://github.com/helicalai/helical)とモデルの重み(https://huggingface.co/helical-ai/helix-mrna)をオープンソースします。

要約(オリジナル)

mRNA-based vaccines have become a major focus in the pharmaceutical industry. The coding sequence as well as the Untranslated Regions (UTRs) of an mRNA can strongly influence translation efficiency, stability, degradation, and other factors that collectively determine a vaccine’s effectiveness. However, optimizing mRNA sequences for those properties remains a complex challenge. Existing deep learning models often focus solely on coding region optimization, overlooking the UTRs. We present Helix-mRNA, a structured state-space-based and attention hybrid model to address these challenges. In addition to a first pre-training, a second pre-training stage allows us to specialise the model with high-quality data. We employ single nucleotide tokenization of mRNA sequences with codon separation, ensuring prior biological and structural information from the original mRNA sequence is not lost. Our model, Helix-mRNA, outperforms existing methods in analysing both UTRs and coding region properties. It can process sequences 6x longer than current approaches while using only 10% of the parameters of existing foundation models. Its predictive capabilities extend to all mRNA regions. We open-source the model (https://github.com/helicalAI/helical) and model weights (https://huggingface.co/helical-ai/helix-mRNA).

arxiv情報

著者 Matthew Wood,Mathieu Klop,Maxime Allard
発行日 2025-02-19 14:51:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-bio.GN | Helix-mRNA: A Hybrid Foundation Model For Full Sequence mRNA Therapeutics はコメントを受け付けていません

LESA: Learnable LLM Layer Scaling-Up

要約

大規模な言語モデル(LLMS)をゼロからトレーニングするには、膨大な計算リソースが必要であり、非常に高価になります。
モデルスケーリングアップは、より大きなモデルのパラメーターを活用して大きなモデルを作成することにより、有望なソリューションを提供します。
ただし、既存の深さのスケーリング方法は、層の複製の経験的ヒューリスティックルールに依存しており、その結果、初期化が劣り、継続的なトレーニング中の収束が遅くなります。
\ textbf {lesa}を提案します。これは、深さスケーリングのための新しい学習可能な方法です。
各レイヤーからパラメーターを連結し、特異値分解を適用することにより、レイヤー間の潜在パターンを明らかにし、層間パラメーターを学習できることを示唆しています。
LESAは、ニューラルネットワークを使用して、隣接する層の間に挿入されたパラメーターを予測し、より良い初期化とより高速なトレーニングを可能にします。
実験は、LESAが既存のベースラインを上回り、継続的なトレーニング中に計算コストの半分以下で優れたパフォーマンスを達成することを示しています。
広範な分析は、さまざまなモデルサイズとタスクにわたる有効性を示しています。

要約(オリジナル)

Training Large Language Models (LLMs) from scratch requires immense computational resources, making it prohibitively expensive. Model scaling-up offers a promising solution by leveraging the parameters of smaller models to create larger ones. However, existing depth scaling-up methods rely on empirical heuristic rules for layer duplication, which result in poorer initialization and slower convergence during continual pre-training. We propose \textbf{LESA}, a novel learnable method for depth scaling-up. By concatenating parameters from each layer and applying Singular Value Decomposition, we uncover latent patterns between layers, suggesting that inter-layer parameters can be learned. LESA uses a neural network to predict the parameters inserted between adjacent layers, enabling better initialization and faster training. Experiments show that LESA outperforms existing baselines, achieving superior performance with less than half the computational cost during continual pre-training. Extensive analyses demonstrate its effectiveness across different model sizes and tasks.

arxiv情報

著者 Yifei Yang,Zouying Cao,Xinbei Ma,Yao Yao,Libo Qin,Zhi Chen,Hai Zhao
発行日 2025-02-19 14:58:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | LESA: Learnable LLM Layer Scaling-Up はコメントを受け付けていません

Addressing the regulatory gap: moving towards an EU AI audit ecosystem beyond the AI Act by including civil society

要約

欧州議会は、プラットフォームと人工知能(AI)製品を規制するために、デジタルサービス法(DSA)および人工知能法(AIA)を提案しています。
サードパーティの監査は、両方の法律の一部であり、モデルの情報と提供されたデータへのアクセスがどのようになっているかを確認します。
監査エコシステムにおけるサードパーティの監査とサードパーティのデータアクセスの価値を考慮することにより、AIAが研究者と市民社会のデータへのアクセスを提供しないという規制のギャップを特定します。
文献への貢献には、次のものが含まれます。(1)コンプライアンスと監視を組み込んだAI監査エコシステムの定義。
(2)DSAおよびAIA規制の枠組み内の規制ギャップを強調し、市民社会と学界による効果的な監視を受けているAI監査エコシステムの確立を防ぐ。
(3)研究と市民社会によるサードパーティの監査は、そのエコシステムの一部でなければならないことを強調します。特定のAI製品のデータとモデルアクセスを含めるために、AIAの修正と委任行為を求めます。
さらに、DSAは、委任された行為によるプラットフォームへのデータアクセスをNGOと調査ジャーナリストに提供し、少なくともリスクの高いシステムに対してサードパーティの監査とデータとモデルアクセスを提供するためのAIAの適応と修正を提供することを求めています。
EU AI規制をモデルにした規制では、データアクセスとサードパーティの監査を可能にし、コンプライアンスと監視メカニズムを促進するAI監査エコシステムを促進する必要があります。

要約(オリジナル)

The European legislature has proposed the Digital Services Act (DSA) and Artificial Intelligence Act (AIA) to regulate platforms and Artificial Intelligence (AI) products. We review to what extent third-party audits are part of both laws and how is access to information on models and the data provided. By considering the value of third-party audits and third-party data access in an audit ecosystem, we identify a regulatory gap in that the AIA does not provide access to data for researchers and civil society. Our contributions to the literature include: (1) Defining an AI audit ecosystem incorporating compliance and oversight. (2) Highlighting a regulatory gap within the DSA and AIA regulatory framework, preventing the establishment of an AI audit ecosystem that has effective oversight by civil society and academia. (3) Emphasizing that third-party audits by research and civil society must be part of that ecosystem, we call for AIA amendments and delegated acts to include data and model access for certain AI products. Furthermore, we call for the DSA to provide NGOs and investigative journalists with data access to platforms by delegated acts and for adaptions and amendments of the AIA to provide third-party audits and data and model access, at least for high-risk systems. Regulations modeled after EU AI regulations should enable data access and third-party audits, fostering an AI audit ecosystem that promotes compliance and oversight mechanisms.

arxiv情報

著者 David Hartmann,José Renato Laranjeira de Pereira,Chiara Streitbörger,Bettina Berendt
発行日 2025-02-19 15:03:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG | Addressing the regulatory gap: moving towards an EU AI audit ecosystem beyond the AI Act by including civil society はコメントを受け付けていません

AnDB: Breaking Boundaries with an AI-Native Database for Universal Semantic Analysis

要約

このデモンストレーションでは、従来のOLTPワークロードと革新的なAI駆動型タスクをサポートするAI-NativeデータベースであるAndBを提示し、構造化されたデータと非構造化データ間で統一されたセマンティック分析を可能にします。
構造化されたデータ分析は成熟していますが、ユーザークエリと非構造化データの間のセマンティックギャップを埋める課題は残っています。
ANDBは、最先端のAIネイティブテクノロジーを活用してこれらの問題に対処し、ユーザーがAIの専門知識を必要とせずに直感的なSQLのようなステートメントを使用してセマンティッククエリを実行できるようにします。
このアプローチは、従来のテキストからSQLシステムのあいまいさを排除し、すべてのデータ型を分析するためのシームレスなエンドツーエンドの最適化を提供します。
ANDBは、複数の実行計画を生成し、オプティマイザーを介して最適なプランを選択することにより、クエリ処理を自動化します。これは、ユーザーポリシーと内部最適化メカニズムに基づいて、精度、実行時間、および財務コストのバランスを取ります。
andB Future-Proofsデータ管理インフラストラクチャにより、ユーザーは、ゼロから開始することなく、あらゆる種類のデータの潜在能力を最大限に活用できるようになります。

要約(オリジナル)

In this demonstration, we present AnDB, an AI-native database that supports traditional OLTP workloads and innovative AI-driven tasks, enabling unified semantic analysis across structured and unstructured data. While structured data analytics is mature, challenges remain in bridging the semantic gap between user queries and unstructured data. AnDB addresses these issues by leveraging cutting-edge AI-native technologies, allowing users to perform semantic queries using intuitive SQL-like statements without requiring AI expertise. This approach eliminates the ambiguity of traditional text-to-SQL systems and provides a seamless end-to-end optimization for analyzing all data types. AnDB automates query processing by generating multiple execution plans and selecting the optimal one through its optimizer, which balances accuracy, execution time, and financial cost based on user policies and internal optimizing mechanisms. AnDB future-proofs data management infrastructure, empowering users to effectively and efficiently harness the full potential of all kinds of data without starting from scratch.

arxiv情報

著者 Tianqing Wang,Xun Xue,Guoliang Li,Yong Wang
発行日 2025-02-19 15:15:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.LG | AnDB: Breaking Boundaries with an AI-Native Database for Universal Semantic Analysis はコメントを受け付けていません

BNEM: A Boltzmann Sampler Based on Bootstrapped Noised Energy Matching

要約

ボルツマン分布から独立した同一分布(IID)サンプルを生成できる効率的なサンプラーを開発することは、科学研究における重要な課題です。
分子動力学。
この作業では、ボルツマン分布からサンプリングされたデータの代わりにエネルギー関数を与えられたニューラルサンプラーを学習するつもりです。
noisedデータのエネルギーを学習することにより、拡散ベースのサンプラー、noisedエネルギーマッチングを提案します。これは、理論的には、関連する作品と比較して、より低い分散と複雑さを示します。
さらに、バイアスと分散のバランスをとるために、NEMに新しいブートストラップ手法が適用されます。
2次元40ガウス混合モデル(GMM)と4粒子の二重ウェルポテンシャル(DW-4)でNEMとBNEMを評価します。
実験結果は、BNEMがより堅牢である間に最先端のパフォーマンスを達成できることを示しています。

要約(オリジナル)

Developing an efficient sampler capable of generating independent and identically distributed (IID) samples from a Boltzmann distribution is a crucial challenge in scientific research, e.g. molecular dynamics. In this work, we intend to learn neural samplers given energy functions instead of data sampled from the Boltzmann distribution. By learning the energies of the noised data, we propose a diffusion-based sampler, Noised Energy Matching, which theoretically has lower variance and more complexity compared to related works. Furthermore, a novel bootstrapping technique is applied to NEM to balance between bias and variance. We evaluate NEM and BNEM on a 2-dimensional 40 Gaussian Mixture Model (GMM) and a 4-particle double-well potential (DW-4). The experimental results demonstrate that BNEM can achieve state-of-the-art performance while being more robust.

arxiv情報

著者 RuiKang OuYang,Bo Qiang,Zixing Song,José Miguel Hernández-Lobato
発行日 2025-02-19 15:18:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.CO, stat.ML | BNEM: A Boltzmann Sampler Based on Bootstrapped Noised Energy Matching はコメントを受け付けていません

Scoring Verifiers: Evaluating Synthetic Verification in Code and Reasoning

要約

コード検証は最近、コーディングのための大規模な推論モデルをトレーニングする上で重要な要素として大きな成功を収めています。
自己生成されたテストケースや報酬モデルなどの合成技術は、事前定義されたテストを超えてコード機能を強化する方法を提供します。
これらの進歩に基づいて、ソリューションの正確性の評価に対する合成検証方法の影響を体系的に評価するように設計された新しいベンチマークを提案します。
HE-R、HE-R+、MBPP-R、およびMBPP-R+を紹介します。これは、既存のコーディングベンチマークをスコアリングおよびランキングデータセットに変換して、合成検証剤の有効性を評価します。
これらのベンチマークを使用して、標準、推論ベース、および報酬ベースのLLMの合成検証方法を分析します。
私たちの結果は、最近の推論モデルがテストケースの生成を大幅に改善し、テストケースのスケーリングが検証の精度を高めることを示しています。

要約(オリジナル)

Code verification has recently found great success as a critical component in training large scale reasoning models for coding. Synthetic techniques such as self-generated test cases and reward models provide a way to enhance code capabilities beyond predefined tests. Building on these advancements, we propose new benchmarks designed to systematically evaluate the impact of synthetic verification methods on assessing solution correctness. We introduce HE-R, HE-R+, MBPP-R, and MBPP-R+, which transform existing coding benchmarks into scoring and ranking datasets to evaluate the effectiveness of synthetic verifiers. Using these benchmarks, we analyze synthetic verification methods in standard, reasoning-based, and reward-based LLMs. Our results show that recent reasoning models significantly improve test case generation and that scaling test cases enhances verification accuracy.

arxiv情報

著者 Aleksander Ficek,Somshubra Majumdar,Vahid Noroozi,Boris Ginsburg
発行日 2025-02-19 15:32:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE | Scoring Verifiers: Evaluating Synthetic Verification in Code and Reasoning はコメントを受け付けていません

Semi-supervised Fine-tuning for Large Language Models

要約

監視された微調整(SFT)は、大規模な言語モデル(LLMS)を特定のドメインまたはタスクに適応させる上で重要です。
ただし、実用的なアプリケーションでは、限られた量のラベル付きデータのみが利用可能であり、SFTが満足のいく結果をもたらすという深刻な課題を提起します。
したがって、LLM微調整のためにラベル付きデータと非標識データを完全に活用できるデータ効率の高いフレームワークは非常に期待されています。
伝播と選択の方法。
知識の伝播のために、Semievolはバイレベルのアプローチを採用し、ラベル付きデータから知識を、重量とコンテキスト内の両方のメソッドの両方を通じて、ラベル付けされていないデータに伝播します。
知識の選択のために、Semievolは共同学習メカニズムを組み込み、高品質の擬似応答サンプルを選択します。
7つの一般またはドメイン固有のデータセットでGPT-4O-MINIおよびLLAMA-3.1を使用して実験を行い、ターゲットデータのモデルパフォーマンスの大幅な改善を示しました。
さらに、SemivolをSFTおよび自己進化方法と比較し、ハイブリッドデータシナリオでの実用性を強調しました。

要約(オリジナル)

Supervised fine-tuning (SFT) is crucial in adapting large language model (LLMs) to a specific domain or task. However, only a limited amount of labeled data is available in practical applications, which poses a severe challenge for SFT in yielding satisfactory results. Therefore, a data-efficient framework that can fully exploit labeled and unlabeled data for LLM fine-tuning is highly anticipated.Towards this end, we introduce a semi-supervised fine-tuning(SemiFT) task and a framework named SemiEvol for LLM alignment from a propagate-and-select manner. For knowledge propagation, SemiEvol adopts a bi-level approach, propagating knowledge from labeled data to unlabeled data through both in-weight and in-context methods. For knowledge selection, SemiEvol incorporates a collaborative learning mechanism, selecting higher-quality pseudo-response samples. We conducted experiments using GPT-4o-mini and Llama-3.1 on seven general or domain-specific datasets, demonstrating significant improvements in model performance on target data. Furthermore, we compared SemiEvol with SFT and self-evolution methods, highlighting its practicality in hybrid data scenarios.

arxiv情報

著者 Junyu Luo,Xiao Luo,Xiusi Chen,Zhiping Xiao,Wei Ju,Ming Zhang
発行日 2025-02-19 15:32:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Semi-supervised Fine-tuning for Large Language Models はコメントを受け付けていません

Bias Similarity Across Large Language Models

要約

機械学習モデル、特に大規模な言語モデルのバイアスは、これらのシステムが重要な社会的決定を形作るため、重要な問題です。
以前の研究では、個々のLLMのバイアスを調べていましたが、モデル間のバイアスの比較は露出度が低いままです。
このギャップに対処するために、5つのファミリーから13のLLMを分析し、2つのデータセット(4Kおよび1Mの質問)を使用して複数の次元にわたって出力分布を介してバイアスを評価します。
我々の結果は、微調整が出力分布に最小限の影響を与えることを示しており、独自のモデルは、バイアスを最小限に抑え、精度と有用性を損なうために未知のものとして過度に応答する傾向があることを示しています。
さらに、llama3-chatやgemma2-itなどのオープンソースモデルは、GPT-4などの独自モデルに匹敵する公平性を示しており、より大きなクローズドソースモデルが本質的に偏りが少ないという仮定に挑戦しています。
また、曖昧性のある質問のバイアススコアはより極端であり、逆差別に関する懸念を引き起こすことがわかります。
これらの調査結果は、LLMSの公平性のためのより包括的なバイアス緩和戦略とより包括的な評価メトリックの改善の必要性を強調しています。

要約(オリジナル)

Bias in machine learning models, particularly in Large Language Models, is a critical issue as these systems shape important societal decisions. While previous studies have examined bias in individual LLMs, comparisons of bias across models remain underexplored. To address this gap, we analyze 13 LLMs from five families, evaluating bias through output distribution across multiple dimensions using two datasets (4K and 1M questions). Our results show that fine-tuning has minimal impact on output distributions, and proprietary models tend to overly response as unknowns to minimize bias, compromising accuracy and utility. In addition, open-source models like Llama3-Chat and Gemma2-it demonstrate fairness comparable to proprietary models like GPT-4, challenging the assumption that larger, closed-source models are inherently less biased. We also find that bias scores for disambiguated questions are more extreme, raising concerns about reverse discrimination. These findings highlight the need for improved bias mitigation strategies and more comprehensive evaluation metrics for fairness in LLMs.

arxiv情報

著者 Hyejun Jeong,Shiqing Ma,Amir Houmansadr
発行日 2025-02-19 15:36:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Bias Similarity Across Large Language Models はコメントを受け付けていません

Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models

要約

複数ターンのジェイルブレイク攻撃は、反復的な対話で大規模な言語モデル(LLM)を関与させ、重要な安全性の脆弱性を暴露することにより、実際の人間の相互作用をシミュレートします。
ただし、既存の方法は、セマンティックの一貫性と攻撃の有効性のバランスをとるのに苦労しており、その結果、良性のセマンティックドリフトまたは効果のない検出回避をもたらします。
この課題に対処するために、私たちは、安全整合を妥協するためのLLMSの強力な推論能力を良性の推論タスクとレバレッジに再forlutedする、有害なクエリを再定式化する新しいマルチターンジェイルブレイクフレームワークである推論を補給した会話を提案します。
具体的には、問題の翻訳と反復推論を体系的にモデル化するための攻撃状態マシンフレームワークを導入し、複数ターンにわたって一貫したクエリ生成を確保します。
このフレームワークに基づいて、攻撃セマンティクスを維持し、有効性を高め、推論主導型の攻撃進行を維持するために、ゲインガイドの探索、自己プレイ、拒否フィードバックモジュールを設計します。
複数のLLMでの広範な実験は、人種が複雑な会話シナリオで最先端の攻撃の有効性を達成し、攻撃の成功率(ASR)が最大96%増加することを示しています。
特に、私たちのアプローチは、Openai O1とDeepseek R1に対して、82%と92%のASRを達成し、その効力を強調しています。
この重要なドメインでのさらなる研究を促進するために、https://github.com/ny1024/raceでコードをリリースします。

要約(オリジナル)

Multi-turn jailbreak attacks simulate real-world human interactions by engaging large language models (LLMs) in iterative dialogues, exposing critical safety vulnerabilities. However, existing methods often struggle to balance semantic coherence with attack effectiveness, resulting in either benign semantic drift or ineffective detection evasion. To address this challenge, we propose Reasoning-Augmented Conversation, a novel multi-turn jailbreak framework that reformulates harmful queries into benign reasoning tasks and leverages LLMs’ strong reasoning capabilities to compromise safety alignment. Specifically, we introduce an attack state machine framework to systematically model problem translation and iterative reasoning, ensuring coherent query generation across multiple turns. Building on this framework, we design gain-guided exploration, self-play, and rejection feedback modules to preserve attack semantics, enhance effectiveness, and sustain reasoning-driven attack progression. Extensive experiments on multiple LLMs demonstrate that RACE achieves state-of-the-art attack effectiveness in complex conversational scenarios, with attack success rates (ASRs) increasing by up to 96%. Notably, our approach achieves ASRs of 82% and 92% against leading commercial models, OpenAI o1 and DeepSeek R1, underscoring its potency. We release our code at https://github.com/NY1024/RACE to facilitate further research in this critical domain.

arxiv情報

著者 Zonghao Ying,Deyue Zhang,Zonglei Jing,Yisong Xiao,Quanchen Zou,Aishan Liu,Siyuan Liang,Xiangzheng Zhang,Xianglong Liu,Dacheng Tao
発行日 2025-02-19 15:36:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR | Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models はコメントを受け付けていません