Free and Fair Hardware: A Pathway to Copyright Infringement-Free Verilog Generation using LLMs

要約

機能的なVerilogコードの生成など、ハードウェア設計タスクの大規模な言語モデル(LLM)機能の制限により、オープンソースリポジトリのキュレーションされたハードウェアデータセットを利用するさまざまな微調整の最適化が動機付けられています。
ただし、これらのデータセットはサイズが限られたままであり、再利用のライセンスに関する最小限のチェックを含むため、微調整されたLLMによる著作権違反の潜在的な違反が生じます。
したがって、著作権で保護されたコードを生成するためにVerilogで訓練されたLLMSのリスクを推定するための評価ベンチマークを提案します。
このリスクを最小限に抑えるために、220Kを超えるファイルを含むオープンソースVerilogデータセットFreeset、および公正使用Verilogデータの追加保証を提供するために使用される自動データセットキュレーションフレームワークを提示します。
次に、継続的なプリトレーニングで構成されるLLM微調整フレームワークを実行し、VerilogのFreevのLlamaモデルを微調整します。
我々の結果は、Freevが以前の作品間で著作権の侵害のリスクが最も少ないことを示しており、違反率はわずか3%であることを示しています。
さらに、実験結果は、ベースラインモデルにわたってVerilog生成機能の改善を示し、Verilogeval Pass@10レートを10%以上改善します。

要約(オリジナル)

Limitations in Large Language Model (LLM) capabilities for hardware design tasks, such as generating functional Verilog codes, have motivated various fine-tuning optimizations utilizing curated hardware datasets from open-source repositories. However, these datasets remain limited in size and contain minimal checks on licensing for reuse, resulting in potential copyright violations by fine-tuned LLMs. Therefore, we propose an evaluation benchmark to estimate the risk of Verilog-trained LLMs to generate copyright-protected codes. To minimize this risk, we present an open-source Verilog dataset, FreeSet, containing over 220k files, along with the automated dataset curation framework utilized to provide additional guarantees of fair-use Verilog data. We then execute an LLM fine-tuning framework consisting of continual pre-training, resulting in a fine-tuned Llama model for Verilog, FreeV. Our results indicate that FreeV demonstrates the smallest risk of copyright-infringement among prior works, with only a 3% violation rate. Furthermore, experimental results demonstrate improvements in Verilog generation functionality over its baseline model, improving VerilogEval pass@10 rates by over 10%.

arxiv情報

著者 Sam Bush,Matthew DeLorenzo,Phat Tieu,Jeyavijayan Rajendran
発行日 2025-05-09 14:44:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク