From Words to Code: Harnessing Data for Program Synthesis from Natural Language

要約

タイトル:自然言語からプログラム合成へのデータの活用:ワードからコードへ

要約:
– データを正確に操作するプログラムを作成することは困難である。
– 既存のアプローチではデータの情報を入力データに追加するだけでLLMsに送信する方法に限られており、データコンテキストの利用が限定的であった。
– 本研究では、LLMsによって生成された候補プログラムを実行し、その出力を収集するために利用可能な入力データを活用する。
– 我々は、セマンティック再順位付けと呼ばれる技術を導入し、プログラムの出力に基づいてLLMsによって生成されたプログラムを再順位付けする。再順位付けは、プログラムの出力、出力間の比較、同じタスクに対する出力の比較の3つのシグナルに基づいて行われる。
– 我々は、テンパレチャー・ミキシングと呼ばれる技術を導入し、高温度と低温度の両方を使用してLLMsによって生成されたサンプルを組み合わせる。
– 我々は、データベース(SQL)、データサイエンス(Pandas)、ビジネスインテリジェンス(ExcelのPower Query M)の3つの領域で我々のアプローチを評価した。
– 我々は、領域全体で大幅な改善を観察し、トップ1精度で45%、トップ3精度で34%の改善が見られた。

要約(オリジナル)

Creating programs to correctly manipulate data is a difficult task, as the underlying programming languages and APIs can be challenging to learn for many users who are not skilled programmers. Large language models (LLMs) demonstrate remarkable potential for generating code from natural language, but in the data manipulation domain, apart from the natural language (NL) description of the intended task, we also have the dataset on which the task is to be performed, or the ‘data context’. Existing approaches have utilized data context in a limited way by simply adding relevant information from the input data into the prompts sent to the LLM. In this work, we utilize the available input data to execute the candidate programs generated by the LLMs and gather their outputs. We introduce semantic reranking, a technique to rerank the programs generated by LLMs based on three signals coming the program outputs: (a) semantic filtering and well-formedness based score tuning: do programs even generate well-formed outputs, (b) semantic interleaving: how do the outputs from different candidates compare to each other, and (c) output-based score tuning: how do the outputs compare to outputs predicted for the same task. We provide theoretical justification for semantic interleaving. We also introduce temperature mixing, where we combine samples generated by LLMs using both high and low temperatures. We extensively evaluate our approach in three domains, namely databases (SQL), data science (Pandas) and business intelligence (Excel’s Power Query M) on a variety of new and existing benchmarks. We observe substantial gains across domains, with improvements of up to 45% in top-1 accuracy and 34% in top-3 accuracy.

arxiv情報

著者 Anirudh Khatry,Joyce Cahoon,Jordan Henkel,Shaleen Deep,Venkatesh Emani,Avrilia Floratou,Sumit Gulwani,Vu Le,Mohammad Raza,Sherry Shi,Mukul Singh,Ashish Tiwari
発行日 2023-05-03 07:02:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.DB, cs.HC パーマリンク