From Words to Code: Harnessing Data for Program Synthesis from Natural Language

要約

タイトル:単語からコードへ:自然言語処理によるプログラム合成のデータ利用

要約:
– データ操作の正しいプログラムを作成することは難しいため、心得のないプログラマーにとって学習が難しい。
– 大規模な言語モデル(LLMs)は自然言語からコードを生成するのに優れた潜在的な可能性を示している。
– この研究では、自然言語によるタスクの説明以外に、タスクを実行するための入力データがある。
– 従来のアプローチは、単に入力データから関連情報をプロンプトに追加しているだけである。
– この研究では、LLMsによって生成された候補プログラムを実行してその出力を収集する手法を提案している。
– 我々は、意味的な再順位付けの技術を導入し、LLMsによって生成されたプログラムを再順位付けする。
– また、テンパリングミックスと呼ばれる技術を導入している。
– このアプローチは、データベース(SQL)、データサイエンス(Panda)、ビジネスインテリジェンス(ExcelのPower Query M)の3つの分野で評価され、従来のベンチマークよりも優れた結果を示している。

要約(オリジナル)

Creating programs to correctly manipulate data is a difficult task, as the underlying programming languages and APIs can be challenging to learn for many users who are not skilled programmers. Large language models (LLMs) demonstrate remarkable potential for generating code from natural language, but in the data manipulation domain, apart from the natural language (NL) description of the intended task, we also have the dataset on which the task is to be performed, or the ‘data context’. Existing approaches have utilized data context in a limited way by simply adding relevant information from the input data into the prompts sent to the LLM. In this work, we utilize the available input data to execute the candidate programs generated by the LLMs and gather their outputs. We introduce semantic reranking, a technique to rerank the programs generated by LLMs based on three signals coming the program outputs: (a) semantic filtering and well-formedness based score tuning: do programs even generate well-formed outputs, (b) semantic interleaving: how do the outputs from different candidates compare to each other, and (c) output-based score tuning: how do the outputs compare to outputs predicted for the same task. We provide theoretical justification for semantic interleaving. We also introduce temperature mixing, where we combine samples generated by LLMs using both high and low temperatures. We extensively evaluate our approach in three domains, namely databases (SQL), data science (Pandas) and business intelligence (Excel’s Power Query M) on a variety of new and existing benchmarks. We observe substantial gains across domains, with improvements of up to 45% in top-1 accuracy and 34% in top-3 accuracy.

arxiv情報

著者 Anirudh Khatry,Joyce Cahoon,Jordan Henkel,Shaleen Deep,Venkatesh Emani,Avrilia Floratou,Sumit Gulwani,Vu Le,Mohammad Raza,Sherry Shi,Mukul Singh,Ashish Tiwari
発行日 2023-05-02 16:56:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.DB, cs.HC パーマリンク