Controllable Data Augmentation for Context-Dependent Text-to-SQL

要約

【タイトル】コンテキスト依存テキストtoSQLのための制御可能なデータ拡張
【要約】
– ラベリングの複雑さにより、注釈付きデータのスケールが制限されているコンテキスト依存テキストtoSQLモデルがある。
– 問題を解決する一般的に使用される方法は、データ拡張法である。
– しかし、現在の拡張方法によって生成されたデータは多様性に欠けるため、問題がある。
– この論文では、質問とそのSQL結果を生成するConDAを紹介する。
– 我々は、SQLの対話状態を設計して、状態の遷移によってデータの多様性を高める。
– 同時に、接地モデルによってデータの品質を保証するためのフィルター手法を提供する。
– さらに、低品質な問題を同じ状態情報と一致しないように識別し、フィルターするために接地モデルを使用する。
– SParCおよびCoSQLデータセットでの実験結果は、ConDAが複雑な問題に対して基礎モデルを平均して$3.3\%$向上させることを示している。
– さらに、拡張されたデータを分析することで、ConDA によって生成されたデータがSQLテンプレートの難易度や種類、ターン、質問の整合性において高品質であることが明らかになった。

要約(オリジナル)

The limited scale of annotated data constraints existing context-dependent text-to-SQL models because of the complexity of labeling. The data augmentation method is a commonly used method to solve this problem. However, the data generated by current augmentation methods often lack diversity. In this paper, we introduce ConDA, which generates interactive questions and corresponding SQL results. We designed the SQL dialogue state to enhance the data diversity through the state transition. Meanwhile, we also present a filter method to ensure the data quality by a grounding model. Additionally, we utilize a grounding model to identify and filter low-quality questions that mismatch the state information. Experimental results on the SParC and CoSQL datasets show that ConDA boosts the baseline model to achieve an average improvement of $3.3\%$ on complex questions. Moreover, we analyze the augmented data, which reveals that the data generated by ConDA are of high quality in both SQL template hardness and types, turns, and question consistency.

arxiv情報

著者 Dingzirui Wang,Longxu Dou,Wanxiang Che
発行日 2023-04-27 01:00:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク