Open LLMs are Necessary for Current Private Adaptations and Outperform their Closed Alternatives

要約

オープンなラージ言語モデル (LLM) は大幅な進歩を遂げていますが、クローズドな独自の対応物のパフォーマンスにはまだ及ばず、後者は機密性の高いデータでの使用にとっても魅力的なものとなっています。
最近、個人情報を第三者や LLM プロバイダーに漏らすことなく、クローズド LLM を個人データに適合させるためのさまざまな新しい方法が提案されています。
この研究では、クローズド LLM をプライベートに適応させるための 4 つの最新の方法のプライバシー保護とパフォーマンスを分析します。
それらの脅威モデルを調査し、差分プライバシー (DP)、さまざまな LLM アーキテクチャ、分類および生成タスク用の複数のデータセットに基づくさまざまなプライバシー レベルでのパフォーマンスを徹底的に比較することにより、次のことがわかります。(1) すべてのメソッドがクエリ データを漏洩します。
推論時にクエリされる (機密性の高い) ユーザー データを LLM プロバイダーに送信します。(2) 4 つのメソッドのうち 3 つは、プライベート トレーニング データの大部分も LLM プロバイダーに漏洩しますが、プライベート データを保護するメソッドにはローカルのデータが必要です。
オープン LLM、(3) すべてのメソッドは、ローカル オープン LLM の 3 つのプライベート勾配ベースの適応メソッドと比較してパフォーマンスが低く、(4) クローズド LLM のプライベート適応メソッドは、代替メソッドを実行するよりも高い金銭的トレーニングとクエリ コストが発生します。
ローカルのオープン LLM。
このことから、現在の方法とモデルを考慮して、より低コストで高いパフォーマンスとより多くのプライバシーをもたらす、真にプライバシーを保護する LLM 適応を実現するには、オープン LLM を使用する必要があるという結論が得られます。

要約(オリジナル)

While open Large Language Models (LLMs) have made significant progress, they still fall short of matching the performance of their closed, proprietary counterparts, making the latter attractive even for the use on highly private data. Recently, various new methods have been proposed to adapt closed LLMs to private data without leaking private information to third parties and/or the LLM provider. In this work, we analyze the privacy protection and performance of the four most recent methods for private adaptation of closed LLMs. By examining their threat models and thoroughly comparing their performance under different privacy levels according to differential privacy (DP), various LLM architectures, and multiple datasets for classification and generation tasks, we find that: (1) all the methods leak query data, i.e., the (potentially sensitive) user data that is queried at inference time, to the LLM provider, (2) three out of four methods also leak large fractions of private training data to the LLM provider while the method that protects private data requires a local open LLM, (3) all the methods exhibit lower performance compared to three private gradient-based adaptation methods for local open LLMs, and (4) the private adaptation methods for closed LLMs incur higher monetary training and query costs than running the alternative methods on local open LLMs. This yields the conclusion that, to achieve truly privacy-preserving LLM adaptations that yield high performance and more privacy at lower costs, taking into account current methods and models, one should use open LLMs.

arxiv情報

著者 Vincent Hanke,Tom Blanchard,Franziska Boenisch,Iyiola Emmanuel Olatunji,Michael Backes,Adam Dziedzic
発行日 2024-11-15 16:23:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク