要約
オープンソースの大規模言語モデル (LLM) は最近、自然言語の理解と生成において優れた機能を実証しており、さまざまなドメインでの広範な採用につながっています。
ただし、モデル サイズの増大により、個々のユーザーにとってローカル デプロイメントは現実的ではなくなり、多くのユーザーがブラックボックス API を介した推論をコンピューティング サービス プロバイダーに依存するようになりました。
この依存は新たなリスクをもたらします。コンピューティング プロバイダーは、要求された LLM を、ユーザーの同意なしに、より小規模で機能の低いモデルに密かに置き換えることにより、コスト削減の恩恵を受けながらも、劣った出力を提供する可能性があります。
この論文では、LLM の検証可能な推論の問題を形式化します。
暗号技術またはゲーム理論技術に基づく既存の検証可能なコンピューティング ソリューションは、計算的に非経済的であるか、強い仮定に基づいています。
LLM からの中間出力を一意のモデル識別子として活用する、シークレットベースの検証可能な LLM 推論プロトコルである SVIP を紹介します。
これらの出力でプロキシ タスクをトレーニングし、生成されたテキストと処理された中間出力の両方を返すようにコンピューティング プロバイダーに要求することで、ユーザーはコンピューティング プロバイダーが誠実に動作しているかどうかを確実に検証できます。
さらに、秘密メカニズムの統合により、プロトコルのセキュリティがさらに強化されます。
私たちは、複数の強力で適応的な敵対的シナリオの下でプロトコルを徹底的に分析します。
私たちの広範な実験により、SVIP は正確で、一般化可能で、計算効率が高く、さまざまな攻撃に耐性があることが実証されています。
特に、SVIP は 5% 未満の偽陰性率と 3% 未満の偽陽性率を達成しながら、検証に必要な時間はクエリごとに 0.01 秒未満です。
要約(オリジナル)
Open-source Large Language Models (LLMs) have recently demonstrated remarkable capabilities in natural language understanding and generation, leading to widespread adoption across various domains. However, their increasing model sizes render local deployment impractical for individual users, pushing many to rely on computing service providers for inference through a blackbox API. This reliance introduces a new risk: a computing provider may stealthily substitute the requested LLM with a smaller, less capable model without consent from users, thereby delivering inferior outputs while benefiting from cost savings. In this paper, we formalize the problem of verifiable inference for LLMs. Existing verifiable computing solutions based on cryptographic or game-theoretic techniques are either computationally uneconomical or rest on strong assumptions. We introduce SVIP, a secret-based verifiable LLM inference protocol that leverages intermediate outputs from LLM as unique model identifiers. By training a proxy task on these outputs and requiring the computing provider to return both the generated text and the processed intermediate outputs, users can reliably verify whether the computing provider is acting honestly. In addition, the integration of a secret mechanism further enhances the security of our protocol. We thoroughly analyze our protocol under multiple strong and adaptive adversarial scenarios. Our extensive experiments demonstrate that SVIP is accurate, generalizable, computationally efficient, and resistant to various attacks. Notably, SVIP achieves false negative rates below 5% and false positive rates below 3%, while requiring less than 0.01 seconds per query for verification.
arxiv情報
著者 | Yifan Sun,Yuhang Li,Yue Zhang,Yuchen Jin,Huan Zhang |
発行日 | 2024-10-29 17:52:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google