cs.CR」カテゴリーアーカイブ

PrisonBreak: Jailbreaking Large Language Models with Fewer Than Twenty-Five Targeted Bit-flips

要約 モデルパラメーターのターゲットを絞ったビットワイズ腐敗を通じてジェイルブレ … 続きを読む

カテゴリー: cs.CL, cs.CR, cs.LG | PrisonBreak: Jailbreaking Large Language Models with Fewer Than Twenty-Five Targeted Bit-flips はコメントを受け付けていません

Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense

要約 大規模な言語モデル(LLM)は、さまざまなドメインにわたって顕著な機能を紹 … 続きを読む

カテゴリー: cs.AI, cs.CR | Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense はコメントを受け付けていません

Do Concept Replacement Techniques Really Erase Unacceptable Concepts?

要約 生成モデル、特に拡散ベースのテキストからイメージ(T2I)モデルは、驚くべ … 続きを読む

カテゴリー: cs.CR, cs.CV | Do Concept Replacement Techniques Really Erase Unacceptable Concepts? はコメントを受け付けていません

SoK: Data Reconstruction Attacks Against Machine Learning Models: Definition, Metrics, and Benchmark

要約 アクセスが制限されているターゲットモデルのトレーニングデータセットを回復す … 続きを読む

カテゴリー: cs.CR, cs.LG | SoK: Data Reconstruction Attacks Against Machine Learning Models: Definition, Metrics, and Benchmark はコメントを受け付けていません

TokenBreak: Bypassing Text Classification Models Through Token Manipulation

要約 自然言語処理(NLP)モデルは、分類や生成などのテキスト関連のタスクに使用 … 続きを読む

カテゴリー: cs.CR, cs.LG | TokenBreak: Bypassing Text Classification Models Through Token Manipulation はコメントを受け付けていません

Representation Bending for Large Language Model Safety

要約 大規模な言語モデル(LLM)は強力なツールとして浮上していますが、有害なコ … 続きを読む

カテゴリー: cs.CL, cs.CR, cs.LG | Representation Bending for Large Language Model Safety はコメントを受け付けていません

Is poisoning a real threat to LLM alignment? Maybe more so than you think

要約 人間のフィードバック(RLHF)による強化学習の最近の進歩は、大規模な言語 … 続きを読む

カテゴリー: cs.CL, cs.CR, cs.LG | Is poisoning a real threat to LLM alignment? Maybe more so than you think はコメントを受け付けていません

LLM Unlearning Should Be Form-Independent

要約 大規模な言語モデル(LLM)は、モデル内の望ましくない知識を消去または抑制 … 続きを読む

カテゴリー: cs.CL, cs.CR, cs.LG | LLM Unlearning Should Be Form-Independent はコメントを受け付けていません

A Cognac Shot To Forget Bad Memories: Corrective Unlearning for Graph Neural Networks

要約 グラフニューラルネットワーク(GNNS)は、グラフデータ上のさまざまなML … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.LG | A Cognac Shot To Forget Bad Memories: Corrective Unlearning for Graph Neural Networks はコメントを受け付けていません

ByzSecAgg: A Byzantine-Resistant Secure Aggregation Scheme for Federated Learning Based on Coded Computing and Vector Commitment

要約 この論文では、ビザンチンの攻撃やプライバシーの漏れに耐性のある連合学習のた … 続きを読む

カテゴリー: cs.CR, cs.DC, cs.IT, cs.LG, math.IT | ByzSecAgg: A Byzantine-Resistant Secure Aggregation Scheme for Federated Learning Based on Coded Computing and Vector Commitment はコメントを受け付けていません