「cs.CR」カテゴリーアーカイブ

OverThink: Slowdown Attacks on Reasoning LLMs

投稿日: 2025年2月6日作成者: jarxiv

要約 LLMS-We Forceモデルの推論に依存しているアプリケーションのオー … 続きを読む →

カテゴリー: cs.CR, cs.LG | コメントを受け付けていません

OVERTHINKING: Slowdown Attacks on Reasoning LLMs

投稿日: 2025年2月5日作成者: jarxiv

要約我々は推論LLMに依存するアプリケーションのオーバーヘッドを増加させる & … 続きを読む →

カテゴリー: cs.CR, cs.LG | コメントを受け付けていません

Is poisoning a real threat to LLM alignment? Maybe more so than you think

投稿日: 2025年2月5日作成者: jarxiv

要約人間のフィードバックを伴う強化学習(RLHF)の最近の進歩は、大規模言語モ … 続きを読む →

カテゴリー: cs.CL, cs.CR, cs.LG | コメントを受け付けていません

Is My Data in Your Retrieval Database? Membership Inference Attacks Against Retrieval Augmented Generation

投稿日: 2025年2月5日作成者: jarxiv

要約検索拡張世代（RAG）システムは、自然言語処理において大きな可能性を示して … 続きを読む →

カテゴリー: cs.AI, cs.CR, cs.LG, I.2 | コメントを受け付けていません

TrojanDec: Data-free Detection of Trojan Inputs in Self-supervised Learning

投稿日: 2025年2月5日作成者: jarxiv

要約自己教師付き学習によって事前に訓練された画像エンコーダは、様々な下流タスク … 続きを読む →

カテゴリー: cs.AI, cs.CR | コメントを受け付けていません

JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models

投稿日: 2025年2月5日作成者: jarxiv

要約脱獄攻撃はLarge Language Models (LLM)に有害な応 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CR | コメントを受け付けていません

Medical Multimodal Model Stealing Attacks via Adversarial Domain Alignment

投稿日: 2025年2月5日作成者: jarxiv

要約医療用マルチモーダル大規模言語モデル（MLLM）は医療システムの重要な一部 … 続きを読む →

カテゴリー: cs.AI, cs.CR | コメントを受け付けていません

UFID: A Unified Framework for Input-level Backdoor Detection on Diffusion Models

投稿日: 2025年2月5日作成者: jarxiv

要約拡散モデルはバックドア攻撃に対して脆弱であり、悪意のある攻撃者は学習段階で … 続きを読む →

カテゴリー: cs.CR, cs.CV, cs.LG | コメントを受け付けていません

The TIP of the Iceberg: Revealing a Hidden Class of Task-in-Prompt Adversarial Attacks on LLMs

投稿日: 2025年2月5日作成者: jarxiv

要約我々は、LLMに対する脱獄敵対的攻撃の新しいクラス、タスク・イン・プロンプ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CR | コメントを受け付けていません

BLens: Contrastive Captioning of Binary Functions using Ensemble Embedding

投稿日: 2025年2月4日作成者: jarxiv

要約関数名は人間のリバースエンジニアにとって大きな助けとなるため、ストリップさ … 続きを読む →

カテゴリー: cs.CR, cs.LG | コメントを受け付けていません

「cs.CR」カテゴリーアーカイブ

OverThink: Slowdown Attacks on Reasoning LLMs

OVERTHINKING: Slowdown Attacks on Reasoning LLMs

Is poisoning a real threat to LLM alignment? Maybe more so than you think

Is My Data in Your Retrieval Database? Membership Inference Attacks Against Retrieval Augmented Generation

TrojanDec: Data-free Detection of Trojan Inputs in Self-supervised Learning

JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models

Medical Multimodal Model Stealing Attacks via Adversarial Domain Alignment

UFID: A Unified Framework for Input-level Backdoor Detection on Diffusion Models

The TIP of the Iceberg: Revealing a Hidden Class of Task-in-Prompt Adversarial Attacks on LLMs

BLens: Contrastive Captioning of Binary Functions using Ensemble Embedding

最近の投稿

最近のコメント

アーカイブ

カテゴリー