「cs.CR」カテゴリーアーカイブ

PrisonBreak: Jailbreaking Large Language Models with Fewer Than Twenty-Five Targeted Bit-flips

投稿日: 2025年6月11日作成者: jarxiv

要約モデルパラメーターのターゲットを絞ったビットワイズ腐敗を通じてジェイルブレ … 続きを読む →

カテゴリー: cs.CL, cs.CR, cs.LG | コメントを受け付けていません

Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense

投稿日: 2025年6月11日作成者: jarxiv

要約大規模な言語モデル（LLM）は、さまざまなドメインにわたって顕著な機能を紹 … 続きを読む →

カテゴリー: cs.AI, cs.CR | コメントを受け付けていません

Do Concept Replacement Techniques Really Erase Unacceptable Concepts?

投稿日: 2025年6月11日作成者: jarxiv

要約生成モデル、特に拡散ベースのテキストからイメージ（T2I）モデルは、驚くべ … 続きを読む →

カテゴリー: cs.CR, cs.CV | コメントを受け付けていません

SoK: Data Reconstruction Attacks Against Machine Learning Models: Definition, Metrics, and Benchmark

投稿日: 2025年6月10日作成者: jarxiv

要約アクセスが制限されているターゲットモデルのトレーニングデータセットを回復す … 続きを読む →

カテゴリー: cs.CR, cs.LG | コメントを受け付けていません

TokenBreak: Bypassing Text Classification Models Through Token Manipulation

投稿日: 2025年6月10日作成者: jarxiv

要約自然言語処理（NLP）モデルは、分類や生成などのテキスト関連のタスクに使用 … 続きを読む →

カテゴリー: cs.CR, cs.LG | コメントを受け付けていません

Representation Bending for Large Language Model Safety

投稿日: 2025年6月10日作成者: jarxiv

要約大規模な言語モデル（LLM）は強力なツールとして浮上していますが、有害なコ … 続きを読む →

カテゴリー: cs.CL, cs.CR, cs.LG | コメントを受け付けていません

Is poisoning a real threat to LLM alignment? Maybe more so than you think

投稿日: 2025年6月10日作成者: jarxiv

要約人間のフィードバック（RLHF）による強化学習の最近の進歩は、大規模な言語 … 続きを読む →

カテゴリー: cs.CL, cs.CR, cs.LG | コメントを受け付けていません

LLM Unlearning Should Be Form-Independent

投稿日: 2025年6月10日作成者: jarxiv

要約大規模な言語モデル（LLM）は、モデル内の望ましくない知識を消去または抑制 … 続きを読む →

カテゴリー: cs.CL, cs.CR, cs.LG | コメントを受け付けていません

A Cognac Shot To Forget Bad Memories: Corrective Unlearning for Graph Neural Networks

投稿日: 2025年6月10日作成者: jarxiv

要約グラフニューラルネットワーク（GNNS）は、グラフデータ上のさまざまなML … 続きを読む →

カテゴリー: cs.AI, cs.CR, cs.LG | コメントを受け付けていません

ByzSecAgg: A Byzantine-Resistant Secure Aggregation Scheme for Federated Learning Based on Coded Computing and Vector Commitment

投稿日: 2025年6月9日作成者: jarxiv

要約この論文では、ビザンチンの攻撃やプライバシーの漏れに耐性のある連合学習のた … 続きを読む →

カテゴリー: cs.CR, cs.DC, cs.IT, cs.LG, math.IT | コメントを受け付けていません

「cs.CR」カテゴリーアーカイブ

PrisonBreak: Jailbreaking Large Language Models with Fewer Than Twenty-Five Targeted Bit-flips

Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense

Do Concept Replacement Techniques Really Erase Unacceptable Concepts?

SoK: Data Reconstruction Attacks Against Machine Learning Models: Definition, Metrics, and Benchmark

TokenBreak: Bypassing Text Classification Models Through Token Manipulation

Representation Bending for Large Language Model Safety

Is poisoning a real threat to LLM alignment? Maybe more so than you think

LLM Unlearning Should Be Form-Independent

A Cognac Shot To Forget Bad Memories: Corrective Unlearning for Graph Neural Networks

ByzSecAgg: A Byzantine-Resistant Secure Aggregation Scheme for Federated Learning Based on Coded Computing and Vector Commitment

最近の投稿

最近のコメント

アーカイブ

カテゴリー