要約
大規模言語モデル (LLM) は、レジスタ転送レベル (RTL) 設計タスクを支援する可能性を実証しています。
それにもかかわらず、現実世界の RTL プロジェクトの複雑さを正確に反映するベンチマークには、依然として大きなギャップが存在します。
これに対処するために、このホワイト ペーパーでは、大規模な RTL 設計プロジェクトで LLM を評価するために特別に設計されたベンチマークである RTL-Repo を紹介します。
RTL-Repo には、パブリック GitHub リポジトリから抽出された 4000 を超える Verilog コード サンプルの包括的なデータセットが含まれており、各サンプルは対応するリポジトリの完全なコンテキストを提供します。
GPT-4、GPT-3.5、Starcoder2 などのいくつかの最先端モデルを、VeriGen や RTLCoder などの Verilog 固有のモデルと並行して RTL-Repo ベンチマークで評価し、複雑なプロジェクトの Verilog コード生成におけるパフォーマンスを比較します。
。
RTL-Repo ベンチマークは、現実世界の RTL 設計シナリオで LLM のパフォーマンスを評価および比較し、複雑な複数ファイルの RTL プロジェクトで Verilog コード生成専用に LLM をトレーニングするための貴重なリソースをハードウェア設計コミュニティに提供します。
RTL-Repo はオープンソースであり、Github で公開されています。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated potential in assisting with Register Transfer Level (RTL) design tasks. Nevertheless, there remains to be a significant gap in benchmarks that accurately reflect the complexity of real-world RTL projects. To address this, this paper presents RTL-Repo, a benchmark specifically designed to evaluate LLMs on large-scale RTL design projects. RTL-Repo includes a comprehensive dataset of more than 4000 Verilog code samples extracted from public GitHub repositories, with each sample providing the full context of the corresponding repository. We evaluate several state-of-the-art models on the RTL-Repo benchmark, including GPT-4, GPT-3.5, Starcoder2, alongside Verilog-specific models like VeriGen and RTLCoder, and compare their performance in generating Verilog code for complex projects. The RTL-Repo benchmark provides a valuable resource for the hardware design community to assess and compare LLMs’ performance in real-world RTL design scenarios and train LLMs specifically for Verilog code generation in complex, multi-file RTL projects. RTL-Repo is open-source and publicly available on Github.
arxiv情報
著者 | Ahmed Allam,Mohamed Shalan |
発行日 | 2024-05-27 17:36:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google