要約
大規模言語モデル (LLM) のデジタル ハードウェア コード生成への応用は、新興分野です。
ほとんどの LLM は主に自然言語とソフトウェア コードについてトレーニングを受けます。
Verilog などのハードウェア コードはトレーニング データのごく一部のみを表しており、ハードウェア ベンチマークはほとんど存在しません。
このギャップに対処するために、オープンソースの VerilogEval ベンチマークが 2023 年にリリースされ、コード補完タスクに関する LLM の一貫した評価フレームワークが提供されました。
GPT-4 を含む当時の最先端のモデルでテストされました。
ただし、VerilogEval およびその他の Verilog 生成ベンチマークには障害分析が欠けており、現在の形式ではプロンプト手法を検討するのに役立ちません。
また、VerilogEval のリリース以来、商用モデルとオープンソース モデルの両方で開発が続けられています。
この作業では、改良された VerilogEval ベンチマーク スイートに対して、さまざまなサイズの新しい商用モデルとオープンソース モデルを評価します。
障害を自動的に分類することで VerilogEval のインフラストラクチャとデータセットを強化し、インコンテキスト学習 (ICL) サンプルをサポートするための新しいプロンプトを導入し、サポートされるタスクを仕様から RTL への変換まで拡張します。
GPT-4 Turbo ではスペックから RTL タスクへの合格率が 59% を達成するなど、商用の最先端モデルでは目に見える改善が見られます。
また、出現したオープンソース モデルやドメイン固有モデルのパフォーマンスも調査し、モデルが ICL から大きなメリットを得られることを実証します。
最近リリースされた Llama 3.1 405B は 58% の合格率を達成し、実質的に GPT-4 Turbo の合格率に匹敵し、さらに小型のドメイン固有の RTL-Coder 6.7B モデルは 37% という驚異的な合格率を達成していることがわかりました。
ただし、迅速なエンジニアリングが良好な合格率を達成するための鍵であり、モデルやタスクによって大きく異なります。
迅速なエンジニアリングと障害分析を可能にするベンチマーク インフラストラクチャは、モデルの開発と展開を継続するための鍵となります。
要約(オリジナル)
The application of large-language models (LLMs) to digital hardware code generation is an emerging field. Most LLMs are primarily trained on natural language and software code. Hardware code, such as Verilog, represents only a small portion of the training data and few hardware benchmarks exist. To address this gap, the open-source VerilogEval benchmark was released in 2023, providing a consistent evaluation framework for LLMs on code completion tasks. It was tested on state-of-the-art models at the time including GPT-4. However, VerilogEval and other Verilog generation benchmarks lack failure analysis and, in present form, are not conducive to exploring prompting techniques. Also, since VerilogEval’s release, both commercial and open-source models have seen continued development. In this work, we evaluate new commercial and open-source models of varying sizes against an improved VerilogEval benchmark suite. We enhance VerilogEval’s infrastructure and dataset by automatically classifying failures, introduce new prompts for supporting in-context learning (ICL) examples, and extend the supported tasks to specification-to-RTL translation. We find a measurable improvement in commercial state-of-the-art models, with GPT-4 Turbo achieving a 59% pass rate on spec-to-RTL tasks. We also study the performance of open-source and domain-specific models that have emerged, and demonstrate that models can benefit substantially from ICL. We find that recently-released Llama 3.1 405B achieves a pass rate of 58%, effectively matching that of GPT-4 Turbo, and that the much smaller domain-specific RTL-Coder 6.7B models achieve an impressive 37% pass rate. However, prompt engineering is key to achieving good pass rates, and varies widely with model and task. A benchmark infrastructure that allows for prompt engineering and failure analysis is key to continued model development and deployment.
arxiv情報
著者 | Nathaniel Pinckney,Christopher Batten,Mingjie Liu,Haoxing Ren,Brucek Khailany |
発行日 | 2024-08-20 17:58:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google