Towards the Imagenets of ML4EDA

要約

RTL から GDSII まで、ML ガイド付き EDA ツールへの関心が高まっているにもかかわらず、EDA 問題領域に対して定義された標準データセットやプロトタイプの学習タスクは存在しません。
コンピューター ビジョン コミュニティの経験から、EDA 向け ML のさらなる進歩を促進するには、このようなデータセットが不可欠であることが示唆されています。
ここでは、Verilog コード生成と論理合成用に 2 つの大規模で高品質なデータセットを厳選した経験について説明します。
1 つ目の VeriGen は、GitHub および Verilog 教科書から収集された Verilog コードのデータセットです。
2 つ目の OpenABC-D は、論理合成タスクの ML を支援するために設計された大規模なラベル付きデータセットです。
このデータセットは、多数のオープンソース ハードウェア プロジェクトでの 1,500 回の合成実行から生成された 870,000 個の And-Inverter-Graphs (AIG) で構成されています。
このペーパーでは、これらのデータセットの収集、維持、サイズと規模の拡大における課題について説明します。
また、データセットの品質とセキュリティの問題、およびハードウェア ドメインに合わせた新しいデータ拡張ツールの使用についても触れます。

要約(オリジナル)

Despite the growing interest in ML-guided EDA tools from RTL to GDSII, there are no standard datasets or prototypical learning tasks defined for the EDA problem domain. Experience from the computer vision community suggests that such datasets are crucial to spur further progress in ML for EDA. Here we describe our experience curating two large-scale, high-quality datasets for Verilog code generation and logic synthesis. The first, VeriGen, is a dataset of Verilog code collected from GitHub and Verilog textbooks. The second, OpenABC-D, is a large-scale, labeled dataset designed to aid ML for logic synthesis tasks. The dataset consists of 870,000 And-Inverter-Graphs (AIGs) produced from 1500 synthesis runs on a large number of open-source hardware projects. In this paper we will discuss challenges in curating, maintaining and growing the size and scale of these datasets. We will also touch upon questions of dataset quality and security, and the use of novel data augmentation tools that are tailored for the hardware domain.

arxiv情報

著者 Animesh Basak Chowdhury,Shailja Thakur,Hammond Pearce,Ramesh Karri,Siddharth Garg
発行日 2023-10-16 16:35:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.LG, cs.PL パーマリンク