Python Code Generation by Asking Clarification Questions

要約

テキストからコードを生成するには、自然言語の記述からユーザーの意図を理解し、この意図を満たす実行可能なコード スニペットを生成する必要があります。
最近の事前トレーニング済み言語モデルは、このタスクに対して顕著なパフォーマンスを示していますが、これらのモデルは、指定された自然言語記述が過少指定されている場合には失敗します。
この作業では、このタスクのための斬新でより現実的な設定を導入します。
私たちは、自然言語記述の仕様不足は、説明のための質問をすることで解決できると仮説を立てます。
したがって、自然言語の説明と、作成された合成説明の質問と回答を含むコードのペアを含む、CodeClarQA という名前の新しいデータセットを収集して導入します。
コード生成における事前トレーニング済み言語モデルのパフォーマンスを評価した経験的結果は、すべての評価指標におけるモデル パフォーマンスの大幅な向上によって示されるように、明確化によりコードがより正確に生成されることを示しています。
これに加えて、私たちのタスクとデータセットは、いつ、どのような明確な質問をするべきかなど、コミュニティに新たな課題をもたらします。
私たちのコードとデータセットは GitHub で入手できます。

要約(オリジナル)

Code generation from text requires understanding the user’s intent from a natural language description and generating an executable code snippet that satisfies this intent. While recent pretrained language models demonstrate remarkable performance for this task, these models fail when the given natural language description is under-specified. In this work, we introduce a novel and more realistic setup for this task. We hypothesize that the under-specification of a natural language description can be resolved by asking clarification questions. Therefore, we collect and introduce a new dataset named CodeClarQA containing pairs of natural language descriptions and code with created synthetic clarification questions and answers. The empirical results of our evaluation of pretrained language model performance on code generation show that clarifications result in more precisely generated code, as shown by the substantial improvement of model performance in all evaluation metrics. Alongside this, our task and dataset introduce new challenges to the community, including when and what clarification questions should be asked. Our code and dataset are available on GitHub.

arxiv情報

著者 Haau-Sing Li,Mohsen Mesgar,André F. T. Martins,Iryna Gurevych
発行日 2023-05-26 16:03:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク