Novel Preprocessing Technique for Data Embedding in Engineering Code Generation Using Large Language Model

要約

ドメイン固有のコードを生成する際の大規模言語モデル (LLM) のパフォーマンスを向上させるための 4 つの主な貢献を紹介します。(i) LLM ベースのデータ分割およびデータ更新技術を利用して、エンベディング空間のセマンティック表現を改善します。
(ii) LLM によって推進される Chain of Density for Renovation Credibility (CoDRC) と、データ更新の信頼性を評価するための Adaptive Text Renovation (ATR) アルゴリズムを導入します。
(iii) 暗黙的知識の拡張と熟考 (IKEC) プロンプト手法を開発する。
(iv) 既存のスクリプトを効果的にリファクタリングして、LLM を使用して新しい高品質のスクリプトを生成します。
エンジニアリング シミュレーション ソフトウェア RedHawk-SC をケーススタディとして使用することにより、スクリプトの拡張と分類におけるデータ前処理手法の有効性を実証します。
これらの技術を IKEC と組み合わせると、より関連性の高い情報を取得する検索拡張生成 (RAG) メソッドが強化され、最終的に MapReduce アプリケーションでのコード生成の問題に対して 73.33% の「正しい行の割合」を達成します。

要約(オリジナル)

We present four main contributions to enhance the performance of Large Language Models (LLMs) in generating domain-specific code: (i) utilizing LLM-based data splitting and data renovation techniques to improve the semantic representation of embeddings’ space; (ii) introducing the Chain of Density for Renovation Credibility (CoDRC), driven by LLMs, and the Adaptive Text Renovation (ATR) algorithm for assessing data renovation reliability; (iii) developing the Implicit Knowledge Expansion and Contemplation (IKEC) Prompt technique; and (iv) effectively refactoring existing scripts to generate new and high-quality scripts with LLMs. By using engineering simulation software RedHawk-SC as a case study, we demonstrate the effectiveness of our data pre-processing method for expanding and categorizing scripts. When combined with IKEC, these techniques enhance the Retrieval-Augmented Generation (RAG) method in retrieving more relevant information, ultimately achieving a 73.33% ‘Percentage of Correct Lines’ for code generation problems in MapReduce applications.

arxiv情報

著者 Yu-Chen Lin,Akhilesh Kumar,Norman Chang,Wenliang Zhang,Muhammad Zakir,Rucha Apte,Haiyang He,Chao Wang,Jyh-Shing Roger Jang
発行日 2024-01-30 08:00:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE パーマリンク