「cs.CR」カテゴリーアーカイブ

Improving LLM Safety Alignment with Dual-Objective Optimization

投稿日: 2025年6月13日作成者: jarxiv

要約大規模な言語モデル（LLM）の既存のトレーニング時間安全アライメント手法は … 続きを読む →

カテゴリー: cs.CL, cs.CR, cs.LG | コメントを受け付けていません

Monitoring Decomposition Attacks in LLMs with Lightweight Sequential Monitors

投稿日: 2025年6月13日作成者: jarxiv

要約現在のLLM安全防御は、拒否を回避する悪意のある目標が良性サブタスクに分解 … 続きを読む →

カテゴリー: cs.AI, cs.CR | コメントを受け付けていません

ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark

投稿日: 2025年6月13日作成者: jarxiv

要約大規模な言語モデル（LLM）は、自動化された有害なコンテンツ検出タスクにま … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CR, cs.IR, cs.LG | コメントを受け付けていません

SoK: Watermarking for AI-Generated Content

投稿日: 2025年6月13日作成者: jarxiv

要約生成AI（genai）技術の出力が品質が向上するにつれて、それらを人間が作 … 続きを読む →

カテゴリー: cs.AI, cs.CR, cs.LG | コメントを受け付けていません

Unsourced Adversarial CAPTCHA: A Bi-Phase Adversarial CAPTCHA Framework

投稿日: 2025年6月13日作成者: jarxiv

要約深い学習の急速な進歩により、従来のキャプチャスキームは、深いニューラルネッ … 続きを読む →

カテゴリー: cs.CR, cs.CV | コメントを受け付けていません

Generate-then-Verify: Reconstructing Data from Limited Published Statistics

投稿日: 2025年6月12日作成者: jarxiv

要約集計統計から表形式データを再構築する問題を研究します。攻撃者は、集合体を考 … 続きを読む →

カテゴリー: cs.CR, cs.LG, stat.ML | コメントを受け付けていません

One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

投稿日: 2025年6月12日作成者: jarxiv

要約マルチモーダル検索拡張生成（M-RAG）は、事実知識ベース（KB）を使用し … 続きを読む →

カテゴリー: cs.CL, cs.CR, cs.CV, cs.IR | コメントを受け付けていません

LLMail-Inject: A Dataset from a Realistic Adaptive Prompt Injection Challenge

投稿日: 2025年6月12日作成者: jarxiv

要約間接的な迅速な噴射攻撃は、入力の命令とデータを区別するために、大規模な言語 … 続きを読む →

カテゴリー: cs.AI, cs.CR | コメントを受け付けていません

Trustworthy AI: Safety, Bias, and Privacy — A Survey

投稿日: 2025年6月12日作成者: jarxiv

要約人工知能システムの能力は大幅に進歩していますが、これらのシステムは依然とし … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | コメントを受け付けていません

Provably Cost-Sensitive Adversarial Defense via Randomized Smoothing

投稿日: 2025年6月11日作成者: jarxiv

要約 MLモデルは重要なアプリケーションでますます展開されているため、敵対的な摂 … 続きを読む →

カテゴリー: cs.CR, cs.LG | コメントを受け付けていません

「cs.CR」カテゴリーアーカイブ

Improving LLM Safety Alignment with Dual-Objective Optimization

Monitoring Decomposition Attacks in LLMs with Lightweight Sequential Monitors

ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark

SoK: Watermarking for AI-Generated Content

Unsourced Adversarial CAPTCHA: A Bi-Phase Adversarial CAPTCHA Framework

Generate-then-Verify: Reconstructing Data from Limited Published Statistics

One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

LLMail-Inject: A Dataset from a Realistic Adaptive Prompt Injection Challenge

Trustworthy AI: Safety, Bias, and Privacy — A Survey

Provably Cost-Sensitive Adversarial Defense via Randomized Smoothing

最近の投稿

最近のコメント

アーカイブ

カテゴリー