Helping Large Language Models Protect Themselves: An Enhanced Filtering and Summarization System

要約

近年、大規模言語モデルの利用が増加しているため、高度な敵対的攻撃、操作可能なプロンプト、符号化された悪意のある入力に対して脆弱になっている。既存の対策では、モデルの再トレーニングが必要な場合が多く、計算コストがかかり、導入が現実的ではありません。本研究では、再トレーニングや微調整を必要とせず、LLMが自ら敵対的な入力や悪意のある入力を認識し、フィルタリングし、防御することを可能にするユニークな防御パラダイムを提示する。(1)ゼロショット分類、キーワード分析、エンコードされたコンテンツ検出(base64、16進数、URLエンコードなど)を含む洗練された自然言語処理(NLP)技術を使用して、有害な入力を検出、デコード、分類するプロンプトフィルタリングモジュールと、(2)敵対的な研究文献を処理して要約し、LLMにコンテキストを認識した防御知識を与える要約モジュールである。このアプローチは、テキスト抽出、要約、有害なプロンプト分析を融合することで、LLMの敵対的悪用に対する耐性を強化する。実験結果によると、この統合技術は、有害なパターン、操作的な言語構造、および符号化されたプロンプトの識別において98.71%の成功率を示した。適度な量の敵対的研究文献をコンテキストとして採用することで、この手法はまた、脱獄耐性と拒否率がより高い割合で、有害な入力に対してモデルが正しく反応することを可能にする。LLMの応答の質を維持しながら、このフレームワークは敵対的な悪用に対するLLMの耐性を劇的に向上させ、時間のかかる再トレーニングに基づく防御の迅速で簡単な代替としての有効性を実証している。

要約(オリジナル)

The recent growth in the use of Large Language Models has made them vulnerable to sophisticated adversarial assaults, manipulative prompts, and encoded malicious inputs. Existing countermeasures frequently necessitate retraining models, which is computationally costly and impracticable for deployment. Without the need for retraining or fine-tuning, this study presents a unique defense paradigm that allows LLMs to recognize, filter, and defend against adversarial or malicious inputs on their own. There are two main parts to the suggested framework: (1) A prompt filtering module that uses sophisticated Natural Language Processing (NLP) techniques, including zero-shot classification, keyword analysis, and encoded content detection (e.g. base64, hexadecimal, URL encoding), to detect, decode, and classify harmful inputs; and (2) A summarization module that processes and summarizes adversarial research literature to give the LLM context-aware defense knowledge. This approach strengthens LLMs’ resistance to adversarial exploitation by fusing text extraction, summarization, and harmful prompt analysis. According to experimental results, this integrated technique has a 98.71% success rate in identifying harmful patterns, manipulative language structures, and encoded prompts. By employing a modest amount of adversarial research literature as context, the methodology also allows the model to react correctly to harmful inputs with a larger percentage of jailbreak resistance and refusal rate. While maintaining the quality of LLM responses, the framework dramatically increases LLM’s resistance to hostile misuse, demonstrating its efficacy as a quick and easy substitute for time-consuming, retraining-based defenses.

arxiv情報

著者 Sheikh Samit Muhaimin,Spyridon Mastorakis
発行日 2025-05-05 14:46:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク