Controllable Data Augmentation for Context-Dependent Text-to-SQL

要約

タイトル:コンテキスト依存型テキスト・トゥ・SQLのための制御可能なデータ拡張

要約:
– アノテーションされたデータのスケールが限られているため、既存のコンテキスト依存型テキスト・トゥ・SQLモデルはラベル付けの複雑さによって制限されている。
– 問題を解決するために、データ拡張方法がよく使われる。しかし、現在の拡張方法により生成されるデータは多様性に欠けることがよくある。
– 本論文では、対話形式の質問とそれに対応するSQLの結果を生成するConDAを導入する。SQLの対話状態を設計して、状態の遷移によってデータの多様性を高める。同時に、接地モデルによるデータ品質の保証するフィルタ方法も提供する。
– 評価データセットのSParCとCoSQLでの実験結果は、ConDAが複雑な問題でベースラインモデルを平均3.3%向上させることを示している。また、拡張されたデータを分析した結果、ConDAによって生成されたデータは、SQLテンプレートの難易度と種類、ターン数、および質問の一貫性の両方で高品質であることが示された。

要約(オリジナル)

The limited scale of annotated data constraints existing context-dependent text-to-SQL models because of the complexity of labeling. The data augmentation method is a commonly used method to solve this problem. However, the data generated by current augmentation methods often lack diversity. In this paper, we introduce ConDA, which generates interactive questions and corresponding SQL results. We designed the SQL dialogue state to enhance the data diversity through the state transition. Meanwhile, we also present a filter method to ensure the data quality by a grounding model. Additionally, we utilize a grounding model to identify and filter low-quality questions that mismatch the state information. Experimental results on the SParC and CoSQL datasets show that ConDA boosts the baseline model to achieve an average improvement of $3.3\%$ on complex questions. Moreover, we analyze the augmented data, which reveals that the data generated by ConDA are of high quality in both SQL template hardness and types, turns, and question consistency.

arxiv情報

著者 Dingzirui Wang,Longxu Dou,Wanxiang Che
発行日 2023-04-28 02:45:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク