「cs.CR」カテゴリーアーカイブ

Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey

投稿日: 2024年10月22日作成者: jarxiv

要約最近の調査によると、サービスとしての微調整の初期段階のビジネスモデルは、 … 続きを読む →

カテゴリー: cs.AI, cs.CR, cs.LG | コメントを受け付けていません

Retraining with Predicted Hard Labels Provably Increases Model Accuracy

投稿日: 2024年10月21日作成者: jarxiv

要約 \textit{ノイズのあるラベル} でトレーニングされたモデルのパフォー … 続きを読む →

カテゴリー: cs.CR, cs.LG, stat.ML | コメントを受け付けていません

Unlearning Backdoor Attacks for LLMs with Weak-to-Strong Knowledge Distillation

投稿日: 2024年10月21日作成者: jarxiv

要約パラメーター効率の良い微調整 (PEFT) は、大規模言語モデル (LLM … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CR | コメントを受け付けていません

BlackDAN: A Black-Box Multi-Objective Approach for Effective and Contextual Jailbreaking of Large Language Models

投稿日: 2024年10月21日作成者: jarxiv

要約大規模言語モデル (LLM) はさまざまなタスクにわたって優れた機能を発揮 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG, cs.NE | コメントを受け付けていません

When LLMs Go Online: The Emerging Threat of Web-Enabled LLMs

投稿日: 2024年10月21日作成者: jarxiv

要約大規模言語モデル (LLM) の最近の進歩により、LLM は計画を立て、さ … 続きを読む →

カテゴリー: cs.AI, cs.CR | コメントを受け付けていません

Privacy-Preserving Decentralized AI with Confidential Computing

投稿日: 2024年10月21日作成者: jarxiv

要約このペーパーでは、Web3 ドメイン用に設計された分散型 AI プラットフ … 続きを読む →

カテゴリー: cs.AI, cs.CR | コメントを受け付けていません

Private Counterfactual Retrieval

投稿日: 2024年10月18日作成者: jarxiv

要約透明性と説明可能性は、リスクの高いアプリケーションでブラックボックス機械学 … 続きを読む →

カテゴリー: cs.CR, cs.IT, cs.LG, eess.SP, math.IT | コメントを受け付けていません

On the Role of Attention Heads in Large Language Model Safety

投稿日: 2024年10月18日作成者: jarxiv

要約大規模言語モデル (LLM) は、複数の言語タスクで最先端のパフォーマンス … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | コメントを受け付けていません

Persistent Pre-Training Poisoning of LLMs

投稿日: 2024年10月18日作成者: jarxiv

要約大規模な言語モデルは、Web から収集した何兆ものトークンで構成される未管 … 続きを読む →

カテゴリー: cs.AI, cs.CR | コメントを受け付けていません

Privacy-Preserving Decentralized AI with Confidential Computing

投稿日: 2024年10月18日作成者: jarxiv

要約このペーパーでは、Web3 ドメイン用に設計された分散型 AI プラットフ … 続きを読む →

カテゴリー: cs.AI, cs.CR | コメントを受け付けていません

「cs.CR」カテゴリーアーカイブ

Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey

Retraining with Predicted Hard Labels Provably Increases Model Accuracy

Unlearning Backdoor Attacks for LLMs with Weak-to-Strong Knowledge Distillation

BlackDAN: A Black-Box Multi-Objective Approach for Effective and Contextual Jailbreaking of Large Language Models

When LLMs Go Online: The Emerging Threat of Web-Enabled LLMs

Privacy-Preserving Decentralized AI with Confidential Computing

Private Counterfactual Retrieval

On the Role of Attention Heads in Large Language Model Safety

Persistent Pre-Training Poisoning of LLMs

Privacy-Preserving Decentralized AI with Confidential Computing

最近の投稿

最近のコメント

アーカイブ

カテゴリー