cs.CR」カテゴリーアーカイブ

Improving LLM Safety Alignment with Dual-Objective Optimization

要約 大規模な言語モデル(LLM)の既存のトレーニング時間安全アライメント手法は … 続きを読む

カテゴリー: cs.CL, cs.CR, cs.LG | Improving LLM Safety Alignment with Dual-Objective Optimization はコメントを受け付けていません

Monitoring Decomposition Attacks in LLMs with Lightweight Sequential Monitors

要約 現在のLLM安全防御は、拒否を回避する悪意のある目標が良性サブタスクに分解 … 続きを読む

カテゴリー: cs.AI, cs.CR | Monitoring Decomposition Attacks in LLMs with Lightweight Sequential Monitors はコメントを受け付けていません

ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark

要約 大規模な言語モデル(LLM)は、自動化された有害なコンテンツ検出タスクにま … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CR, cs.IR, cs.LG | ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark はコメントを受け付けていません

SoK: Watermarking for AI-Generated Content

要約 生成AI(genai)技術の出力が品質が向上するにつれて、それらを人間が作 … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.LG | SoK: Watermarking for AI-Generated Content はコメントを受け付けていません

Unsourced Adversarial CAPTCHA: A Bi-Phase Adversarial CAPTCHA Framework

要約 深い学習の急速な進歩により、従来のキャプチャスキームは、深いニューラルネッ … 続きを読む

カテゴリー: cs.CR, cs.CV | Unsourced Adversarial CAPTCHA: A Bi-Phase Adversarial CAPTCHA Framework はコメントを受け付けていません

Generate-then-Verify: Reconstructing Data from Limited Published Statistics

要約 集計統計から表形式データを再構築する問題を研究します。攻撃者は、集合体を考 … 続きを読む

カテゴリー: cs.CR, cs.LG, stat.ML | Generate-then-Verify: Reconstructing Data from Limited Published Statistics はコメントを受け付けていません

One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

要約 マルチモーダル検索拡張生成(M-RAG)は、事実知識ベース(KB)を使用し … 続きを読む

カテゴリー: cs.CL, cs.CR, cs.CV, cs.IR | One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image はコメントを受け付けていません

LLMail-Inject: A Dataset from a Realistic Adaptive Prompt Injection Challenge

要約 間接的な迅速な噴射攻撃は、入力の命令とデータを区別するために、大規模な言語 … 続きを読む

カテゴリー: cs.AI, cs.CR | LLMail-Inject: A Dataset from a Realistic Adaptive Prompt Injection Challenge はコメントを受け付けていません

Trustworthy AI: Safety, Bias, and Privacy — A Survey

要約 人工知能システムの能力は大幅に進歩していますが、これらのシステムは依然とし … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | Trustworthy AI: Safety, Bias, and Privacy — A Survey はコメントを受け付けていません

Provably Cost-Sensitive Adversarial Defense via Randomized Smoothing

要約 MLモデルは重要なアプリケーションでますます展開されているため、敵対的な摂 … 続きを読む

カテゴリー: cs.CR, cs.LG | Provably Cost-Sensitive Adversarial Defense via Randomized Smoothing はコメントを受け付けていません