The Regular Expression Inference Challenge

要約

私たちは、コード/言語モデリングとより広範な機械学習コミュニティの課題として \emph{正規表現推論 (REI)} を提案します。
REI は教師あり機械学習 (ML) およびプログラム合成タスクであり、例から最小限の正規表現を見つけるという問題を提起します。文字列の 2 つの有限セット $P$ および $N$ とコスト関数 $\text{cost}(
\cdot)$ の場合、タスクは $P$ 内のすべての文字列を受け入れ、$N$ 内のすべての文字列を拒否する式 $r$ を生成することですが、$\text{cost}( にはそのような式 $r’$ は他に存在しません)
r’)<\text{コスト}(r)$。 REI には、チャレンジ問題としての利点があります。(i) 正規表現はよく知られており、広く使用されており、コードを自然に理想化したものです。 (ii) REI の漸近的な最悪の場合の複雑さはよく理解されています。 (iii) REI には、理解しやすい少数のパラメータ (例: ~$P$ または $N$ の基数、例の文字列の長さ、またはコスト関数) があります。 これにより、REI 硬度を簡単に微調整できます。 (iv) REI は、深層学習ベースの ML にとって未解決の問題です。 最近、プログラム合成技術を使用して、REI ソルバーが GPU に実装されました。 これにより、複雑な REI インスタンスの最小限の式を高速に生成できるようになりました。 この進歩に基づいて、私たちは REI 用の最初の大規模データセットを生成して公開し、いくつかの初期ヒューリスティックおよび機械学習ベースラインを考案して評価します。 コミュニティに参加して、REI 問題の解決方法を学習する ML 手法を探索するよう呼びかけます。 私たちは、REI の進歩がコード/言語モデリングに直接つながると信じています。

要約(オリジナル)

We propose \emph{regular expression inference (REI)} as a challenge for code/language modelling, and the wider machine learning community. REI is a supervised machine learning (ML) and program synthesis task, and poses the problem of finding minimal regular expressions from examples: Given two finite sets of strings $P$ and $N$ and a cost function $\text{cost}(\cdot)$, the task is to generate an expression $r$ that accepts all strings in $P$ and rejects all strings in $N$, while no other such expression $r’$ exists with $\text{cost}(r’)<\text{cost}(r)$. REI has advantages as a challenge problem: (i) regular expressions are well-known, widely used, and a natural idealisation of code; (ii) REI's asymptotic worst-case complexity is well understood; (iii) REI has a small number of easy to understand parameters (e.g.~$P$ or $N$ cardinality, string lengths of examples, or the cost function); this lets us easily finetune REI-hardness; (iv) REI is an unsolved problem for deep learning based ML. Recently, an REI solver was implemented on GPUs, using program synthesis techniques. This enabled, for the first time, fast generation of minimal expressions for complex REI instances. Building on this advance, we generate and publish the first large-scale datasets for REI, and devise and evaluate several initial heuristic and machine learning baselines. We invite the community to participate and explore ML methods that learn to solve REI problems. We believe that progress in REI directly translates to code/language modelling.

arxiv情報

著者 Mojtaba Valizadeh,Philip John Gorinski,Ignacio Iacobacci,Martin Berger
発行日 2023-08-15 17:40:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.FL, cs.LG パーマリンク