要約
Machine Learning as a Service (MLaaS) 市場は急速に拡大し、より成熟しています。
たとえば、OpenAI の ChatGPT は、関連料金を伴うさまざまなクエリに対する応答を生成する高度な大規模言語モデル (LLM) です。
これらのモデルは満足のいくパフォーマンスを提供できますが、完璧とは程遠いです。
研究者は、敵対的攻撃やモデルの毒性など、LLM の脆弱性と制限を長年研究してきました。
必然的に、商用 ML モデルもこのような問題から免除されるわけではなく、MLaaS が成長し続けるにつれて問題となる可能性があります。
この論文では、LLM API に対する新しい攻撃戦略、つまりプロンプト抽象化攻撃を発見しました。
具体的には、文を抽象化するシンプルで直接的な手法である Mondrian を提案します。これにより、LLM API の使用コストを削減できます。
このアプローチでは、攻撃者はまず、ターゲット API (確立された価格が高い) のプロキシとして機能する疑似 API (確立された価格が低い) を作成します。
次に、擬似 API は Mondrian を利用してユーザー クエリを変更し、ターゲット API から抽象化された応答を取得して、それをエンド ユーザーに転送します。
私たちの結果は、Mondrian がテキスト分類、生成、質問応答などのさまざまなタスクにわたって、ユーザー クエリのトークン長を 13% から 23% の範囲で削減することに成功したことを示しています。
一方、これらの抽象化されたクエリは、ChatGPT のようなタスク固有の言語モデルや一般的な言語モデルの有用性に大きな影響を与えません。
Mondrian はまた、出力品質を損なうことなく、命令プロンプトのトークン長を少なくとも 11% 削減します。
その結果、即時抽象化攻撃により、攻撃者は API の開発と展開のコストを負担することなく利益を得ることができます。
要約(オリジナル)
The Machine Learning as a Service (MLaaS) market is rapidly expanding and becoming more mature. For example, OpenAI’s ChatGPT is an advanced large language model (LLM) that generates responses for various queries with associated fees. Although these models can deliver satisfactory performance, they are far from perfect. Researchers have long studied the vulnerabilities and limitations of LLMs, such as adversarial attacks and model toxicity. Inevitably, commercial ML models are also not exempt from such issues, which can be problematic as MLaaS continues to grow. In this paper, we discover a new attack strategy against LLM APIs, namely the prompt abstraction attack. Specifically, we propose Mondrian, a simple and straightforward method that abstracts sentences, which can lower the cost of using LLM APIs. In this approach, the adversary first creates a pseudo API (with a lower established price) to serve as the proxy of the target API (with a higher established price). Next, the pseudo API leverages Mondrian to modify the user query, obtain the abstracted response from the target API, and forward it back to the end user. Our results show that Mondrian successfully reduces user queries’ token length ranging from 13% to 23% across various tasks, including text classification, generation, and question answering. Meanwhile, these abstracted queries do not significantly affect the utility of task-specific and general language models like ChatGPT. Mondrian also reduces instruction prompts’ token length by at least 11% without compromising output quality. As a result, the prompt abstraction attack enables the adversary to profit without bearing the cost of API development and deployment.
arxiv情報
| 著者 | Wai Man Si,Michael Backes,Yang Zhang |
| 発行日 | 2023-08-07 13:10:35+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google