要約
ハードウェア設計における大規模な言語モデル(LLM)の使用は、主にチップデザイナーの生産性を高めるツールに組み込まれていることを通じて、近年離陸しています。
2つの最も一般的な言語がVerilogとVHDLであるチップ設計のRTL仕様でのLLMの使用についてかなりの議論がありました。
LLMSとVerilog Designでの使用は、言語の人気が高いために大きな注目を集めていますが、業界での継続的な人気にもかかわらず、これまでのところVHDLにはほとんど注目されていません。
また、高性能プロセッサの設計に従事する組織の独自のニーズについては、これらの設定にAIソリューションを展開する技術についてはほとんど議論されていません。
この論文では、VHDLコードを説明する目的で、特に大規模な言語モデル(LLM)を開発する際の旅について説明します。これは、数十年の経験と高性能プロセッサ設計の資産を持つ組織で特に重要なタスクです。
私たちは、私たちのニーズに固有のテストセットをどのように開発し、ベースLLMの拡張前脱直(EPT)を実行する際にモデルを評価するためにそれらを使用した方法を示しました。
EPTモデルによって生成されたコードの説明の専門家の評価は、43%の基本モデル評価と比較して69%に増加しました。
さらに、専門家の評価者と同様のモデルを測定するために、LLM-as-a-a-a-a-a-a-a-a-a-a-a-a-judgeを開発した方法を示します。
これにより、予想される専門家の評価者評価が71%のEPTモデルの命令チューニングバージョンを含む、多数の新しいモデルを導き出して評価することになりました。
また、私たちの実験は、新しいベースモデルを使用する潜在的な使用により、この評価を85%以上に押し上げることができることを示しています。
私たちは、生成AIの世界でエキサイティングな新しい開発を使用して、ハードウェア設計LLMの品質をさらに向上させることについての議論で締めくくります。
要約(オリジナル)
The use of Large Language Models (LLMs) in hardware design has taken off in recent years, principally through its incorporation in tools that increase chip designer productivity. There has been considerable discussion about the use of LLMs in RTL specifications of chip designs, for which the two most popular languages are Verilog and VHDL. LLMs and their use in Verilog design has received significant attention due to the higher popularity of the language, but little attention so far has been given to VHDL despite its continued popularity in the industry. There has also been little discussion about the unique needs of organizations that engage in high-performance processor design, and techniques to deploy AI solutions in these settings. In this paper, we describe our journey in developing a Large Language Model (LLM) specifically for the purpose of explaining VHDL code, a task that has particular importance in an organization with decades of experience and assets in high-performance processor design. We show how we developed test sets specific to our needs and used them for evaluating models as we performed extended pretraining (EPT) of a base LLM. Expert evaluation of the code explanations produced by the EPT model increased to 69% compared to a base model rating of 43%. We further show how we developed an LLM-as-a-judge to gauge models similar to expert evaluators. This led us to deriving and evaluating a host of new models, including an instruction-tuned version of the EPT model with an expected expert evaluator rating of 71%. Our experiments also indicate that with the potential use of newer base models, this rating can be pushed to 85% and beyond. We conclude with a discussion on further improving the quality of hardware design LLMs using exciting new developments in the Generative AI world.
arxiv情報
著者 | Nicolas Dupuis,Ravi Nair,Shyam Ramji,Sean McClintock,Nishant Chauhan,Priyanka Nagpal,Bart Blaner,Ken Valk,Leon Stok,Ruchir Puri |
発行日 | 2025-05-14 17:58:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google