Unmasking Database Vulnerabilities: Zero-Knowledge Schema Inference Attacks in Text-to-SQL Systems

要約

リレーショナル データベースは現代の情報システムに不可欠であり、データを効率的かつ効果的に保存、クエリ、管理するための基盤として機能します。
大規模言語モデリングの進歩により、text-to-SQL テクノロジが出現し、これらのデータベースからの情報のクエリと抽出が大幅に強化され、プライバシーとセキュリティに関する懸念が高まりました。
私たちの調査では、text-to-SQL モデルの基礎となるデータベース スキーマ要素を抽出しました。
スキーマの知識があれば、SQL インジェクションなどの攻撃が容易になります。
特別に作成された質問をすることで、データベース自体の知識がなくてもさまざまなデータベース スキーマ要素を調査できるように設計されたゼロ知識フレームワークを開発しました。
次に、text-to-SQL モデルがこれらの質問を処理して、データベース スキーマの構造を解明するために使用する出力を生成します。
これを、テキストと SQL のペアで微調整された特殊なテキストから SQL へのモデルと、SQL 生成に使用される生成言語モデルに適用します。
全体として、微調整モデルの場合はほぼ 0.75、生成モデルの場合は 0.96 の F1 でテーブル名を再構築できます。

要約(オリジナル)

Relational databases are integral to modern information systems, serving as the foundation for storing, querying, and managing data efficiently and effectively. Advancements in large language modeling have led to the emergence of text-to-SQL technologies, significantly enhancing the querying and extracting of information from these databases and raising concerns about privacy and security. Our research extracts the database schema elements underlying a text-to-SQL model. Knowledge of the schema can make attacks such as SQL injection easier. By asking specially crafted questions, we have developed a zero-knowledge framework designed to probe various database schema elements without knowledge of the database itself. The text-to-SQL models then process these questions to produce an output that we use to uncover the structure of the database schema. We apply it to specialized text-to-SQL models fine-tuned on text-SQL pairs and generative language models used for SQL generation. Overall, we can reconstruct the table names with an F1 of nearly .75 for fine-tuned models and .96 for generative.

arxiv情報

著者 Đorđe Klisura,Anthony Rios
発行日 2024-06-20 17:54:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク