Rerouting LLM Routers


LLMルーターは、クエリーを分類し、その複雑さに応じて、より安価なLLMまたはより高価なLLMにルーティングすることで、生成の品質とコストのバランスをとることを目的としている。ルーターは、我々がLLMコントロールプレーンと呼ぶものの一種であり、1つ以上のLLMの使用をオーケストレーションするシステムである。本論文では、ルーターの敵対的ロバスト性を調査する。 まず、LLM制御プレーンの完全性、すなわち敵対的な入力に対するLLMオーケストレーションの頑健性を、AI安全性の明確な問題として定義する。次に、敵がクエリに依存しないトークンシーケンスを生成することができることを示す。 我々の定量的な評価では、この攻撃はホワイトボックスでもブラックボックスでも、オープンソースや商用ルーターに対して成功し、混同クエリーはLLMのレスポンスの品質に影響を与えないことを示している。また、混同クエリはLLM応答の品質には影響しない。最後に、ガジェットが低い複雑度を維持しながら有効であることを示し、複雑度ベースのフィルタリングは有効な防御ではないことを示す。最後に、代替の防御策を調査する。


LLM routers aim to balance quality and cost of generation by classifying queries and routing them to a cheaper or more expensive LLM depending on their complexity. Routers represent one type of what we call LLM control planes: systems that orchestrate use of one or more LLMs. In this paper, we investigate routers’ adversarial robustness. We first define LLM control plane integrity, i.e., robustness of LLM orchestration to adversarial inputs, as a distinct problem in AI safety. Next, we demonstrate that an adversary can generate query-independent token sequences we call “confounder gadgets” that, when added to any query, cause LLM routers to send the query to a strong LLM. Our quantitative evaluation shows that this attack is successful both in white-box and black-box settings against a variety of open-source and commercial routers, and that confounding queries do not affect the quality of LLM responses. Finally, we demonstrate that gadgets can be effective while maintaining low perplexity, thus perplexity-based filtering is not an effective defense. We finish by investigating alternative defenses.


著者 Avital Shafran,Roei Schuster,Thomas Ristenpart,Vitaly Shmatikov
発行日 2025-01-03 14:03:14+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.CR, cs.LG パーマリンク