要約
従来のセキュリティメカニズムは、リソースにアクセスすべきではないユーザーからリソースを隔離します。
私たちは、そのようなセキュリティ メカニズムの構成上の性質を LLM の構造に反映させて、証明された安全な LLM を構築します。
これを SecureLLM と呼びます。
LLM の安全性に対する他のアプローチは、悪意のある行為や悪い結果から保護しようとしますが、機密データには不適切になる程度にしか保護できません。
SecureLLM は、アクセス セキュリティと微調整方法を組み合わせています。
各データ サイロには個別の微調整が関連付けられており、ユーザーは許可されている微調整のコレクションにのみアクセスできます。
次にモデルは、これらのデータ サイロと個別の微調整の組み合わせが交差する部分で構成タスクを実行する必要があります。
ドキュメントの QA や API 呼び出しなどのあらゆるタスクに適用できますが、この作業では、新しい SQL データベースのレイアウトを学習して自然言語から SQL への変換機能を提供するモデルに関心があります。
既存の微調整構成方法は、構成タスクを処理するための十分な機能が備わっていないため、この困難な環境では失敗します。
LLM にとって構成性は依然として課題です。
私たちは、新しい構成的な自然言語から SQL への困難な変換タスクと、今日の安全な環境にモデルを展開できるようにする LLM セキュリティに関する新しい視点の両方に貢献します。
要約(オリジナル)
Traditional security mechanisms isolate resources from users who should not access them. We reflect the compositional nature of such security mechanisms back into the structure of LLMs to build a provably secure LLM; that we term SecureLLM. Other approaches to LLM safety attempt to protect against bad actors or bad outcomes, but can only do so to an extent making them inappropriate for sensitive data. SecureLLM blends access security with fine-tuning methods. Each data silo has associated with it a separate fine-tuning and a user has access only to the collection of fine-tunings that they have permission for. The model must then perform on compositional tasks at the intersection of those data silos with the combination of those individual fine-tunings. While applicable to any task like document QA or making API calls, in this work we concern ourselves with models that learn the layouts of new SQL databases to provide natural-language-to-SQL translation capabilities. Existing fine-tuning composition methods fail in this challenging environment, as they are not well-equipped for handling compositional tasks. Compositionality remains a challenge for LLMs. We contribute both a difficult new compositional natural-language-to-SQL translation task and a new perspective on LLM security that allows models to be deployed to secure environments today.
arxiv情報
| 著者 | Abdulrahman Alabdulkareem,Christian M Arnold,Yerim Lee,Pieter M Feenstra,Boris Katz,Andrei Barbu | 
| 発行日 | 2024-06-13 16:54:51+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
