MG-Verilog: Multi-grained Dataset Towards Enhanced LLM-assisted Verilog Generation

要約

大規模言語モデル(Large Language Models: LLM)は、膨大な量のドメイン固有データをカプセル化することで、ハードウェア設計プロセスを合理化することができる。さらに、LLMは、ユーザが自然言語命令を通じて設計プロセスと対話することを可能にするため、開発者にとってハードウェア設計がより身近なものになります。しかし、ハードウェア設計においてLLMを効果的に活用するには、推論(コンテキスト内学習など)、ファインチューニング、事前学習の際に、ドメイン固有のデータを提供する必要がある。残念ながら、既存の一般に利用可能なハードウェアデータセットは、サイズ、複雑さ、詳細さにおいて制限されていることが多く、ハードウェア設計タスクにおけるLLMの有効性を妨げている。この問題に対処するため、我々はまず、LLM支援ハードウェア設計を効果的に強化できる高品質ハードウェアデータセットを作成するための一連の基準を提案する。これらの基準に基づいて、様々な詳細レベルの記述と対応するコードサンプルを含むMulti-Grained-Verilog(MG-Verilog)データセットを提案します。より広範なハードウェア設計コミュニティに貢献するため、我々はオープンソースのインフラストラクチャを開発しました。さらに、複雑さと詳細さが異なるMG-Verilogデータセットの可能性を十分に引き出すために、バランスの取れた微調整スキームを導入しました。このスキームは、データセットが提供する多様な詳細レベルを活用するためのユニークなユースケースとして機能する。広範な実験により、提案するデータセットと微調整スキームが、ハードウェア設計タスクにおけるLLMの性能を一貫して向上させることが実証された。

要約(オリジナル)

Large Language Models (LLMs) have recently shown promise in streamlining hardware design processes by encapsulating vast amounts of domain-specific data. In addition, they allow users to interact with the design processes through natural language instructions, thus making hardware design more accessible to developers. However, effectively leveraging LLMs in hardware design necessitates providing domain-specific data during inference (e.g., through in-context learning), fine-tuning, or pre-training. Unfortunately, existing publicly available hardware datasets are often limited in size, complexity, or detail, which hinders the effectiveness of LLMs in hardware design tasks. To address this issue, we first propose a set of criteria for creating high-quality hardware datasets that can effectively enhance LLM-assisted hardware design. Based on these criteria, we propose a Multi-Grained-Verilog (MG-Verilog) dataset, which encompasses descriptions at various levels of detail and corresponding code samples. To benefit the broader hardware design community, we have developed an open-source infrastructure that facilitates easy access, integration, and extension of the dataset to meet specific project needs. Furthermore, to fully exploit the potential of the MG-Verilog dataset, which varies in complexity and detail, we introduce a balanced fine-tuning scheme. This scheme serves as a unique use case to leverage the diverse levels of detail provided by the dataset. Extensive experiments demonstrate that the proposed dataset and fine-tuning scheme consistently improve the performance of LLMs in hardware design tasks.

arxiv情報

著者 Yongan Zhang,Zhongzhi Yu,Yonggan Fu,Cheng Wan,Yingyan Celine Lin
発行日 2024-07-03 15:15:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.AR, cs.LG パーマリンク