要約
ChatGPT、Gemini、LLaMAのような大規模言語モデル(LLM)は、数え切れないほどのドメインでかなりの進歩と汎化能力を示し、最近のトレンドとなっている。しかし、LLMはさらに大きなブラックボックスとなり、解釈可能なアプローチが限られるなど、不透明性を悪化させています。LLMの性質に埋め込まれた不確実性と不透明性は、金融詐欺やフィッシングなどのようなリスクの高い領域での適用を制限している。現在のアプローチは、主に事後的に解釈可能なアルゴリズムによる伝統的なテキスト分類に依存しており、システムの防御を破るために汎用性の高い敵対的なサンプルを作成する可能性のある攻撃者に悩まされている。この問題に対処するために、我々はGenshin(大規模言語モデルによる自然言語処理のための一般的シールド)と呼ばれる、LLMを防御的なワンタイムプラグインとして利用する新しいカスケードフレームワークを提案する。LLMはテキストを新しいものに変換したり、構造的に変換したりするアプリケーションとは異なり、Genshinはテキストを元の状態に復元するためにLLMを使用する。Genshinは、LLMの汎用性、中央値モデルの識別性、単純モデルの解釈可能性を組み合わせることを目指している。センチメンタル分析とスパム検出のタスクに関する我々の実験では、現在のメディアンモデルの致命的な欠陥と、LLMの回復能力に関する爽快な結果が示され、Genshinが効果的かつ効率的であることが実証された。我々のアブレーション研究では、いくつかの興味深い観察結果を発見した。第4のパラダイムから派生したツールであるLLMディフェンダーを利用することで、NLPの第3のパラダイムにおけるBERTの15%の最適マスク率の結果を再現した。さらに、潜在的な敵対ツールとしてLLMを採用した場合、攻撃者はほぼセマンティックロスレスで効果的な攻撃を実行できる。
要約(オリジナル)
Large language models (LLMs) like ChatGPT, Gemini, or LLaMA have been trending recently, demonstrating considerable advancement and generalizability power in countless domains. However, LLMs create an even bigger black box exacerbating opacity, with interpretability limited to few approaches. The uncertainty and opacity embedded in LLMs’ nature restrict their application in high-stakes domains like financial fraud, phishing, etc. Current approaches mainly rely on traditional textual classification with posterior interpretable algorithms, suffering from attackers who may create versatile adversarial samples to break the system’s defense, forcing users to make trade-offs between efficiency and robustness. To address this issue, we propose a novel cascading framework called Genshin (General Shield for Natural Language Processing with Large Language Models), utilizing LLMs as defensive one-time plug-ins. Unlike most applications of LLMs that try to transform text into something new or structural, Genshin uses LLMs to recover text to its original state. Genshin aims to combine the generalizability of the LLM, the discrimination of the median model, and the interpretability of the simple model. Our experiments on the task of sentimental analysis and spam detection have shown fatal flaws of the current median models and exhilarating results on LLMs’ recovery ability, demonstrating that Genshin is both effective and efficient. In our ablation study, we unearth several intriguing observations. Utilizing the LLM defender, a tool derived from the 4th paradigm, we have reproduced BERT’s 15% optimal mask rate results in the 3rd paradigm of NLP. Additionally, when employing the LLM as a potential adversarial tool, attackers are capable of executing effective attacks that are nearly semantically lossless.
arxiv情報
著者 | Xiao Peng,Tao Liu,Ying Wang |
発行日 | 2024-06-03 08:35:07+00:00 |
arxivサイト | arxiv_id(pdf) |