Beyond Text-to-SQL for IoT Defense: A Comprehensive Framework for Querying and Classifying IoT Threats

要約

データベースへの自然言語インターフェイスの可能性を認識して、これまでの研究ではテキストから SQL へのシステムの開発が強調されてきました。
この分野では大きな進歩が見られましたが、既存の研究はテキスト クエリから SQL ステートメントを生成することに集中していました。
ただし、より広範な課題は、返されたデータに関する新しい情報を推測することにあります。
私たちの研究は、このギャップに対処するために 2 つの大きな貢献をしています。
まず、10,985 個のテキスト – SQL ペアと 239,398 行のネットワーク トラフィック アクティビティで構成される、新しいモノのインターネット (IoT) テキスト – SQL データセットを紹介します。
このデータセットには、以前の text-to-SQL データセットで制限されていた追加のクエリ タイプ、特に時間関連のクエリが含まれています。
私たちのデータセットは、センサーの読み取りデータとネットワーク トラフィック データを調査するスマート ビルディングの IoT エコシステムから取得されています。
2 番目に、私たちのデータセットは 2 段階の処理を可能にし、生成された SQL から返されたデータ (ネットワーク トラフィック) を悪意のあるものとそうでないものに分類できます。
私たちの結果は、データに関する情報をクエリおよび推論するための共同トレーニングにより、テキストから SQL への全体的なパフォーマンスが向上し、実質的に大規模なモデルとほぼ一致することを示しています。
また、現在の大規模な言語モデル (GPT3.5 など) は返されたデータに関する新しい情報を推論するのに苦労していることも示し、したがって、私たちのデータセットは、複雑なドメイン固有の推論を LLM に統合するための新しいテストベッドを提供します。

要約(オリジナル)

Recognizing the promise of natural language interfaces to databases, prior studies have emphasized the development of text-to-SQL systems. While substantial progress has been made in this field, existing research has concentrated on generating SQL statements from text queries. The broader challenge, however, lies in inferring new information about the returned data. Our research makes two major contributions to address this gap. First, we introduce a novel Internet-of-Things (IoT) text-to-SQL dataset comprising 10,985 text-SQL pairs and 239,398 rows of network traffic activity. The dataset contains additional query types limited in prior text-to-SQL datasets, notably temporal-related queries. Our dataset is sourced from a smart building’s IoT ecosystem exploring sensor read and network traffic data. Second, our dataset allows two-stage processing, where the returned data (network traffic) from a generated SQL can be categorized as malicious or not. Our results show that joint training to query and infer information about the data can improve overall text-to-SQL performance, nearly matching substantially larger models. We also show that current large language models (e.g., GPT3.5) struggle to infer new information about returned data, thus our dataset provides a novel test bed for integrating complex domain-specific reasoning into LLMs.

arxiv情報

著者 Ryan Pavlich,Nima Ebadi,Richard Tarbell,Billy Linares,Adrian Tan,Rachael Humphreys,Jayanta Kumar Das,Rambod Ghandiparsi,Hannah Haley,Jerris George,Rocky Slavin,Kim-Kwang Raymond Choo,Glenn Dietrich,Anthony Rios
発行日 2024-06-25 14:14:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク