Customized Retrieval Augmented Generation and Benchmarking for EDA Tool Documentation QA

要約

検索拡張生成 (RAG) は、外部データベースから事実情報を取得することで生成 AI モデルの精度と信頼性を高めます。これは、ドキュメントに基づいた質問応答 (QA) タスクで広く使用されています。
既製の RAG フローは、汎用ドキュメントで十分に事前トレーニングされていますが、電子設計自動化 (EDA) などの知識集約型の垂直ドメインに適用すると、重大な課題に直面します。
この論文では、カスタマイズされた RAG フレームワークと、テキスト埋め込みモデルの微調整のための対照学習スキーム、独自の LLM から抽出されたリランカー、および生成 LLM 微調整を含む、EDA ツールのドキュメント QA のための 3 つのドメイン固有の手法を提案することで、このような問題に対処します。
高品質のドメイン コーパスで調整されています。
さらに、高度な RTL から GDSII への設計プラットフォームである OpenROAD 用のドキュメント QA 評価ベンチマーク ORD-QA を開発し、リリースしました。
実験結果は、私たちが提案した RAG フローと技術が、最先端技術と比較して、ORD-QA および商用ツールで優れたパフォーマンスを達成したことを示しています。
ORD-QA ベンチマークとカスタマイズされた RAG フローのトレーニング データセットは、https://github.com/lesliepy99/RAG-EDA でオープンソースです。

要約(オリジナル)

Retrieval augmented generation (RAG) enhances the accuracy and reliability of generative AI models by sourcing factual information from external databases, which is extensively employed in document-grounded question-answering (QA) tasks. Off-the-shelf RAG flows are well pretrained on general-purpose documents, yet they encounter significant challenges when being applied to knowledge-intensive vertical domains, such as electronic design automation (EDA). This paper addresses such issue by proposing a customized RAG framework along with three domain-specific techniques for EDA tool documentation QA, including a contrastive learning scheme for text embedding model fine-tuning, a reranker distilled from proprietary LLM, and a generative LLM fine-tuned with high-quality domain corpus. Furthermore, we have developed and released a documentation QA evaluation benchmark, ORD-QA, for OpenROAD, an advanced RTL-to-GDSII design platform. Experimental results demonstrate that our proposed RAG flow and techniques have achieved superior performance on ORD-QA as well as on a commercial tool, compared with state-of-the-arts. The ORD-QA benchmark and the training dataset for our customized RAG flow are open-source at https://github.com/lesliepy99/RAG-EDA.

arxiv情報

著者 Yuan Pu,Zhuolun He,Tairu Qiu,Haoyuan Wu,Bei Yu
発行日 2024-07-26 08:36:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.CL パーマリンク