NL2CMD: An Updated Workflow for Natural Language to Bash Commands Translation


自然言語を Bash コマンドに変換することは、近年注目を集めている新しい研究分野です。
私たちの知る限り、利用できるデータセットは 2 つだけで、一方は他方に基づいています。
どちらのデータセットも、既知のデータ ソース (スタック オーバーフロー、クラウドソーシングなどのプラットフォームを介して) をスクレイピングし、専門家を雇って英語のテキストまたは Bash コマンドを検証および修正する必要があります。
このホワイト ペーパーでは、Bash コマンドをゼロから合成する研究への 2 つの貢献を提供します。
まず、対応する英語のテキストから Bash コマンドを生成するために使用される最先端の翻訳モデルについて説明します。
次に、自動的に生成され、人間の介入が最小限で、以前のデータセットの 6 倍以上の新しい NL2CMD データセットを導入します。
生成パイプラインは既存の Bash コマンドに依存しないため、コマンドの配布とタイプをカスタム調整できます。


Translating natural language into Bash Commands is an emerging research field that has gained attention in recent years. Most efforts have focused on producing more accurate translation models. To the best of our knowledge, only two datasets are available, with one based on the other. Both datasets involve scraping through known data sources (through platforms like stack overflow, crowdsourcing, etc.) and hiring experts to validate and correct either the English text or Bash Commands. This paper provides two contributions to research on synthesizing Bash Commands from scratch. First, we describe a state-of-the-art translation model used to generate Bash Commands from the corresponding English text. Second, we introduce a new NL2CMD dataset that is automatically generated, involves minimal human intervention, and is over six times larger than prior datasets. Since the generation pipeline does not rely on existing Bash Commands, the distribution and types of commands can be custom adjusted. Our empirical results show how the scale and diversity of our dataset can offer unique opportunities for semantic parsing researchers.


著者 Quchen Fu,Zhongwei Teng,Marco Georgaklis,Jules White,Douglas C. Schmidt
発行日 2023-02-15 18:31:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL, cs.PF パーマリンク