Data Transformation to Construct a Dataset for Generating Entity-Relationship Model from Natural Language

要約

ER モデル設計の手動コストを削減するために、NL2ERM のタスク、つまりソフトウェア要件などの自然言語 (NL) 発話からエンティティ関係 (ER) モデルを自動的に生成するタスクに対処する最近のアプローチが提案されています。
これらのアプローチは通常、厳格なヒューリスティック ルールに依存するルールベースのアプローチです。
これらのアプローチは、同じ要件を記述するさまざまな言語的方法にうまく一般化できません。
ルールベースのアプローチよりも一般化機能が優れているにもかかわらず、大規模なデータセットがないため、NL2ERM には深層学習ベースのモデルが不足しています。
この問題に対処するために、この論文では、NL2ERM のタスクと、ますます人気が高まっているテキストから SQL へのタスクの間には高い類似性があるという洞察を報告し、テキストの既存のデータを変換するデータ変換アルゴリズムを提案します。
NL2ERM のデータに to-SQL します。
最も人気のある text-to-SQL データセットの 1 つである Spider にデータ変換アルゴリズムを適用し、さまざまな NL タイプのデータ エントリも収集して、大規模な NL2ERM データセットを取得します。
NL2ERM は特別な情報抽出 (IE) タスクと見なすことができるため、データセットで 2 つの最先端の IE モデルをトレーニングします。
実験結果は、2 つのモデルの両方が高いパフォーマンスを達成し、既存のベースラインを上回るパフォーマンスを示していることを示しています。

要約(オリジナル)

In order to reduce the manual cost of designing ER models, recent approaches have been proposed to address the task of NL2ERM, i.e., automatically generating entity-relationship (ER) models from natural language (NL) utterances such as software requirements. These approaches are typically rule-based ones, which rely on rigid heuristic rules; these approaches cannot generalize well to various linguistic ways of describing the same requirement. Despite having better generalization capability than rule-based approaches, deep-learning-based models are lacking for NL2ERM due to lacking a large-scale dataset. To address this issue, in this paper, we report our insight that there exists a high similarity between the task of NL2ERM and the increasingly popular task of text-to-SQL, and propose a data transformation algorithm that transforms the existing data of text-to-SQL into the data of NL2ERM. We apply our data transformation algorithm on Spider, one of the most popular text-to-SQL datasets, and we also collect some data entries with different NL types, to obtain a large-scale NL2ERM dataset. Because NL2ERM can be seen as a special information extraction (IE) task, we train two state-of-the-art IE models on our dataset. The experimental results show that both the two models achieve high performance and outperform existing baselines.

arxiv情報

著者 Zhenwen Li,Jian-Guang Lou,Tao Xie
発行日 2023-12-21 09:45:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク