NL2CMD: An Updated Workflow for Natural Language to Bash Commands Translation

要約

自然言語をBashコマンドに翻訳することは、近年注目されている研究分野です。ほとんどの努力は、より正確な翻訳モデルの作成に焦点を当てています。私たちの知る限り、利用可能なデータセットは2つだけであり、一方は他方をベースにしています。どちらのデータセットも、(stack overflowやcrowdsourcingなどのプラットフォームを通じて)既知のデータソースからスクレイピングし、専門家を雇って英文またはBashコマンドのいずれかを検証・修正するものです。本論文では、Bashコマンドをゼロから合成する研究に対して、2つの貢献を行う。第一に、対応する英文からBashコマンドを生成するために使用される最新の翻訳モデルについて説明する。第二に、自動生成される新しいNL2CMDデータセットを紹介し、人間の介入を最小限に抑え、従来のデータセットの6倍以上の大きさを持つ。生成パイプラインは既存のBashコマンドに依存しないため、コマンドの分布や種類をカスタム調整することができます。このタスクにおけるChatGPTの性能を評価し、データ生成ツールとしての可能性を議論します。我々の実証結果は、我々のデータセットの規模と多様性が、意味解析の研究者にユニークな機会を提供できることを示す。

要約(オリジナル)

Translating natural language into Bash Commands is an emerging research field that has gained attention in recent years. Most efforts have focused on producing more accurate translation models. To the best of our knowledge, only two datasets are available, with one based on the other. Both datasets involve scraping through known data sources (through platforms like stack overflow, crowdsourcing, etc.) and hiring experts to validate and correct either the English text or Bash Commands. This paper provides two contributions to research on synthesizing Bash Commands from scratch. First, we describe a state-of-the-art translation model used to generate Bash Commands from the corresponding English text. Second, we introduce a new NL2CMD dataset that is automatically generated, involves minimal human intervention, and is over six times larger than prior datasets. Since the generation pipeline does not rely on existing Bash Commands, the distribution and types of commands can be custom adjusted. We evaluate the performance of ChatGPT on this task and discuss the potential of using it as a data generator. Our empirical results show how the scale and diversity of our dataset can offer unique opportunities for semantic parsing researchers.

arxiv情報

著者 Quchen Fu,Zhongwei Teng,Marco Georgaklis,Jules White,Douglas C. Schmidt
発行日 2023-03-03 04:55:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.PF パーマリンク