NL2CMD: An Updated Workflow for Natural Language to Bash Commands Translation

要約

自然言語を Bash コマンドに変換することは、近年注目を集めている新しい研究分野です。
ほとんどの努力は、より正確な翻訳モデルを作成することに集中しています。
私たちの知る限り、利用できるデータセットは 2 つだけで、一方は他方に基づいています。
どちらのデータセットも、既知のデータ ソース (スタック オーバーフロー、クラウドソーシングなどのプラットフォームを介して) をスクレイピングし、専門家を雇って英語のテキストまたは Bash コマンドを検証および修正する必要があります。
このホワイト ペーパーでは、Bash コマンドをゼロから合成する研究への 2 つの貢献を提供します。
まず、対応する英語のテキストから Bash コマンドを生成するために使用される最先端の翻訳モデルについて説明します。
次に、自動的に生成され、人間の介入が最小限で、以前のデータセットの 6 倍以上の新しい NL2CMD データセットを導入します。
生成パイプラインは既存の Bash コマンドに依存しないため、コマンドの配布とタイプをカスタム調整できます。
私たちの実験結果は、データセットの規模と多様性が意味解析研究者にユニークな機会をどのように提供できるかを示しています。

要約(オリジナル)

Translating natural language into Bash Commands is an emerging research field that has gained attention in recent years. Most efforts have focused on producing more accurate translation models. To the best of our knowledge, only two datasets are available, with one based on the other. Both datasets involve scraping through known data sources (through platforms like stack overflow, crowdsourcing, etc.) and hiring experts to validate and correct either the English text or Bash Commands. This paper provides two contributions to research on synthesizing Bash Commands from scratch. First, we describe a state-of-the-art translation model used to generate Bash Commands from the corresponding English text. Second, we introduce a new NL2CMD dataset that is automatically generated, involves minimal human intervention, and is over six times larger than prior datasets. Since the generation pipeline does not rely on existing Bash Commands, the distribution and types of commands can be custom adjusted. Our empirical results show how the scale and diversity of our dataset can offer unique opportunities for semantic parsing researchers.

arxiv情報

著者 Quchen Fu,Zhongwei Teng,Marco Georgaklis,Jules White,Douglas C. Schmidt
発行日 2023-02-15 18:31:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.PF パーマリンク