BRIDGES: Bridging Graph Modality and Large Language Models within EDA Tasks

要約

多くのEDAタスクにはすでにグラフベースのデータが含まれていますが、EDAの既存のLLMは主にグラフをシーケンシャルテキストとして表しているか、RTLコードのデータフローグラフのように有益なグラフ構造データを無視します。
最近の研究では、グラフがシーケンシャルテキストとして表されている場合、LLMのパフォーマンスが低下することがわかっており、追加のグラフ情報を使用するとパフォーマンスが大幅に向上しています。
これらの課題に対処するために、EDAタスク用のLLMにグラフモダリティを組み込むように設計されたフレームワークであるBridgesを紹介します。
Bridgesは、自動化されたデータ生成ワークフロー、グラフモダリティとLLMを組み合わせたソリューション、および包括的な評価スイートを統合します。
まず、LLM駆動型のワークフローを確立して、RTLとNetListレベルのデータを生成し、関数の説明を使用してデータフローとネットリストグラフに変換します。
このワークフローは、500,000を超えるグラフインスタンスと15億を超えるトークンで構成される大規模なデータセットを生成します。
第二に、グラフ表現をテキスト互換プロンプトにエンコードする軽量のクロスモーダルプロジェクターを提案し、LLMがアーキテクチャの変更なしでグラフデータを効果的に利用できるようにします。
実験結果は、テキストのみのベースラインと比較して、複数のタスクで2倍から10倍の改善が示されています。これには、機能記述の設計検索の精度、タイプ予測、困惑、無視できる計算オーバーヘッドがあります(1%のモデル重量が増加し、ランタイムのオーバーヘッドが30%未満)。
追加のLLM Finetuningがなくても、結果はテキストのみを大きなマージンで上回ります。
データセット、モデル、トレーニングフローを含むブリッジをリリースする予定です。

要約(オリジナル)

While many EDA tasks already involve graph-based data, existing LLMs in EDA primarily either represent graphs as sequential text, or simply ignore graph-structured data that might be beneficial like dataflow graphs of RTL code. Recent studies have found that LLM performance suffers when graphs are represented as sequential text, and using additional graph information significantly boosts performance. To address these challenges, we introduce BRIDGES, a framework designed to incorporate graph modality into LLMs for EDA tasks. BRIDGES integrates an automated data generation workflow, a solution that combines graph modality with LLM, and a comprehensive evaluation suite. First, we establish an LLM-driven workflow to generate RTL and netlist-level data, converting them into dataflow and netlist graphs with function descriptions. This workflow yields a large-scale dataset comprising over 500,000 graph instances and more than 1.5 billion tokens. Second, we propose a lightweight cross-modal projector that encodes graph representations into text-compatible prompts, enabling LLMs to effectively utilize graph data without architectural modifications. Experimental results demonstrate 2x to 10x improvements across multiple tasks compared to text-only baselines, including accuracy in design retrieval, type prediction and perplexity in function description, with negligible computational overhead (<1% model weights increase and <30% additional runtime overhead). Even without additional LLM finetuning, our results outperform text-only by a large margin. We plan to release BRIDGES, including the dataset, models, and training flow.

arxiv情報

著者 Wei Li,Yang Zou,Christopher Ellis,Ruben Purdy,Shawn Blanton,José M. F. Moura
発行日 2025-04-07 15:27:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク