A Pontryagin Perspective on Reinforcement Learning

要約

強化学習は、従来、閉ループの方法で最適な制御問題を解決するための状態依存性ポリシーの学習に焦点を当ててきました。
この作業では、代わりに固定アクションシーケンスが学習されるオープンループ補強学習のパラダイムを紹介します。
3つの新しいアルゴリズムを提示します。1つの堅牢なモデルベースの方法と、2つのサンプル効率の高いモデルフリーメソッドです。
私たちの仕事は、Bellmanの方程式に基づいて、Bellmanの方程式に基づいて、Pontryaginの原則に基づいて、オープンループ最適制御の理論から構築されています。
収束保証を提供し、振り子のスイングアップタスクと、既存のベースラインを大幅に上回る2つの高次元ムホコのタスクと同様に、すべての方法を経験的に評価します。

要約(オリジナル)

Reinforcement learning has traditionally focused on learning state-dependent policies to solve optimal control problems in a closed-loop fashion. In this work, we introduce the paradigm of open-loop reinforcement learning where a fixed action sequence is learned instead. We present three new algorithms: one robust model-based method and two sample-efficient model-free methods. Rather than basing our algorithms on Bellman’s equation from dynamic programming, our work builds on Pontryagin’s principle from the theory of open-loop optimal control. We provide convergence guarantees and evaluate all methods empirically on a pendulum swing-up task, as well as on two high-dimensional MuJoCo tasks, significantly outperforming existing baselines.

arxiv情報

著者 Onno Eberhard,Claire Vernade,Michael Muehlebach
発行日 2025-04-22 17:39:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | A Pontryagin Perspective on Reinforcement Learning はコメントを受け付けていません

High-performance training and inference for deep equivariant interatomic potentials

要約

機械学習間能力間、特に深い等量のニューラルネットワークに基づく可能性は、分子動力学やハイスループットスクリーニングなどの原子モデリングタスクにおける最先端の精度と計算効率を実証しています。
データセットのサイズとダウンストリームワークフローの需要は急速に成長しており、堅牢でスケーラブルなソフトウェアが不可欠になっています。
この作業は、マルチノードの並列性、計算パフォーマンス、および拡張性に焦点を当てたNequipフレームワークの大きなオーバーホールを提示します。
再設計されたフレームワークは、大規模なデータセットでの分散トレーニングをサポートし、障壁を削除して、電車の時点でPytorch 2.0コンパイラの完全な利用を妨げます。
有機分子システムのSPICE 2データセットでアレグロモデルをトレーニングすることにより、ケーススタディでこの加速を実証します。
推論のために、機械学習間のポテンシャルにPytorchの先行インダクタコンパイラを使用する最初のエンドツーエンドインフラストラクチャを紹介します。
さらに、Allegroモデルの最も高価な操作であるテンソル製品にカスタムカーネルを実装します。
一緒に、これらの進歩は、最大18倍の実用的な関連性のシステムサイズに関する分子動力学計算をスピードアップします。

要約(オリジナル)

Machine learning interatomic potentials, particularly those based on deep equivariant neural networks, have demonstrated state-of-the-art accuracy and computational efficiency in atomistic modeling tasks like molecular dynamics and high-throughput screening. The size of datasets and demands of downstream workflows are growing rapidly, making robust and scalable software essential. This work presents a major overhaul of the NequIP framework focusing on multi-node parallelism, computational performance, and extensibility. The redesigned framework supports distributed training on large datasets and removes barriers preventing full utilization of the PyTorch 2.0 compiler at train time. We demonstrate this acceleration in a case study by training Allegro models on the SPICE 2 dataset of organic molecular systems. For inference, we introduce the first end-to-end infrastructure that uses the PyTorch Ahead-of-Time Inductor compiler for machine learning interatomic potentials. Additionally, we implement a custom kernel for the Allegro model’s most expensive operation, the tensor product. Together, these advancements speed up molecular dynamics calculations on system sizes of practical relevance by up to a factor of 18.

arxiv情報

著者 Chuin Wei Tan,Marc L. Descoteaux,Mit Kotak,Gabriel de Miranda Nascimento,Seán R. Kavanagh,Laura Zichi,Menghang Wang,Aadit Saluja,Yizhong R. Hu,Tess Smidt,Anders Johansson,William C. Witt,Boris Kozinsky,Albert Musaelian
発行日 2025-04-22 17:47:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.chem-ph, physics.comp-ph | High-performance training and inference for deep equivariant interatomic potentials はコメントを受け付けていません

Explainable Unsupervised Anomaly Detection with Random Forest

要約

私たちは、類似性学習と監視なしの異常検出を改善するための監視されていないランダムフォレストの使用について説明します。
ランダムな森林をトレーニングすることにより、実際のデータ境界上の均一な分布からサンプリングされた実際のデータと合成データを区別することにより、データを変換してデータを変換し、データマニホールドの境界で距離を拡大する距離測定が取得されます。
この変換から回収された距離を使用すると、多数のベンチマークデータセットで実証された他の一般的に使用される検出器と比較して、監視されていない異常検出の精度が向上することを示します。
パフォーマンスの向上に加えて、この方法は、データの前処理のための最小限の要件、欠落データのネイティブ処理、視覚化の可能性など、他の監視されていない異常検出方法よりも利点があります。
外れ値のスコアをランダムフォレストのパーティションに関連付けることにより、特徴の重要性という観点から、局所的に説明可能な異常予測の方法を開発します。

要約(オリジナル)

We describe the use of an unsupervised Random Forest for similarity learning and improved unsupervised anomaly detection. By training a Random Forest to discriminate between real data and synthetic data sampled from a uniform distribution over the real data bounds, a distance measure is obtained that anisometrically transforms the data, expanding distances at the boundary of the data manifold. We show that using distances recovered from this transformation improves the accuracy of unsupervised anomaly detection, compared to other commonly used detectors, demonstrated over a large number of benchmark datasets. As well as improved performance, this method has advantages over other unsupervised anomaly detection methods, including minimal requirements for data preprocessing, native handling of missing data, and potential for visualizations. By relating outlier scores to partitions of the Random Forest, we develop a method for locally explainable anomaly predictions in terms of feature importance.

arxiv情報

著者 Joshua S. Harvey,Joshua Rosaler,Mingshu Li,Dhruv Desai,Dhagash Mehta
発行日 2025-04-22 17:54:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Explainable Unsupervised Anomaly Detection with Random Forest はコメントを受け付けていません

Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training

要約

大規模な言語モデル(LLMS)は、トレーニング前のデータに極端な言語の不均衡にもかかわらず、顕著な多言語機能を示します。
この論文では、この現象の背後にある理由を詳しく調べ、トレーニング前のコーパスに焦点を当てています。
コンテキスト内の異なる言語を交互に行うコードスイッチングの存在が、多言語機能の鍵であることがわかります。
トレーニング前のコーパスでのコードスイッチングを調査するために分析を実施し、その存在を調べ、2つの象限内の4つのタイプに分類します。
次に、多言語のパフォーマンスへの影響を評価します。
これらのタイプのコードスイッチングデータは、割合では不均衡であり、言語転送の促進にさまざまな効果を示しています。
トレーニング前の言語アライメントのためのコードスイッチングの力をよりよく調査するために、合成コードスイッチングの戦略を調査します。
合成コードスイッチングデータを継続的に拡大し、ベンチマークと表現スペースの両方で顕著な改善を観察します。
広範な実験では、合成コードスイッチングデータを組み込むことで、より良い言語の整列が可能になり、さまざまな品質の事前トレーニングコーパスを備えた高、中、低リソースの言語によく一般化することが示されています。

要約(オリジナル)

Large language models (LLMs) exhibit remarkable multilingual capabilities despite the extreme language imbalance in the pre-training data. In this paper, we closely examine the reasons behind this phenomenon, focusing on the pre-training corpus. We find that the existence of code-switching, alternating between different languages within a context, is key to multilingual capabilities. We conduct an analysis to investigate code-switching in the pre-training corpus, examining its presence and categorizing it into four types within two quadrants. We then assess its impact on multilingual performance. These types of code-switching data are unbalanced in proportions and demonstrate different effects on facilitating language transfer. To better explore the power of code-switching for language alignment during pre-training, we investigate the strategy of synthetic code-switching. We continuously scale up the synthetic code-switching data and observe remarkable improvements in both benchmarks and representation space. Extensive experiments indicate that incorporating synthetic code-switching data enables better language alignment and generalizes well to high, medium, and low-resource languages with pre-training corpora of varying qualities.

arxiv情報

著者 Zhijun Wang,Jiahuan Li,Hao Zhou,Rongxiang Weng,Jingang Wang,Xin Huang,Xue Han,Junlan Feng,Chao Deng,Shujian Huang
発行日 2025-04-22 06:19:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training はコメントを受け付けていません

CiteFix: Enhancing RAG Accuracy Through Post-Processing Citation Correction

要約

検索拡張生成(RAG)は、大規模な言語モデル(LLM)の強力なアプリケーションとして浮上し、情報検索と消費に革命をもたらしました。
RAGシステムは、従来の検索機能とLLMSを組み合わせて、理想的には正確な引用を備えたユーザークエリに対する包括的な回答を生成します。
ただし、RAG製品の開発経験では、LLMはしばしばソースの帰属に苦労し、一般的な生成検索エンジンで約74%の引用精度を報告する他の業界研究と協力しています。
これに対処するために、LLMで生成された応答の引用精度を改善するために、効率的な後処理アルゴリズムを提示し、遅延とコストへの影響を最小限に抑えます。
私たちのアプローチは、キーワード +セマンティックマッチング、Bertscoreを使用した細かいチューニングモデル、軽量LLMベースの技術を含む方法を使用して、取得した記事に対してクロスチェックを生成しました。
実験結果は、RAGシステムの全体的な精度メトリックにおける15.46%の相対的な改善を示しています。
この大幅な強化により、現在のより大きな言語モデルから比較的小さいモデルから、比較可能なパフォーマンスを維持しながら、推論時間が3倍高速な比較的小さいモデルへの移行が可能になります。
この研究は、特に商業製品で顧客の信頼を得るために重要な情報検索および要約タスクにおけるAI生成コンテンツの信頼性と信頼性を高めることに貢献します。

要約(オリジナル)

Retrieval Augmented Generation (RAG) has emerged as a powerful application of Large Language Models (LLMs), revolutionizing information search and consumption. RAG systems combine traditional search capabilities with LLMs to generate comprehensive answers to user queries, ideally with accurate citations. However, in our experience of developing a RAG product, LLMs often struggle with source attribution, aligning with other industry studies reporting citation accuracy rates of only about 74% for popular generative search engines. To address this, we present efficient post-processing algorithms to improve citation accuracy in LLM-generated responses, with minimal impact on latency and cost. Our approaches cross-check generated citations against retrieved articles using methods including keyword + semantic matching, fine tuned model with BERTScore, and a lightweight LLM-based technique. Our experimental results demonstrate a relative improvement of 15.46% in the overall accuracy metrics of our RAG system. This significant enhancement potentially enables a shift from our current larger language model to a relatively smaller model that is approximately 12x more cost-effective and 3x faster in inference time, while maintaining comparable performance. This research contributes to enhancing the reliability and trustworthiness of AI-generated content in information retrieval and summarization tasks which is critical to gain customer trust especially in commercial products.

arxiv情報

著者 Harsh Maheshwari,Srikanth Tenneti,Alwarappan Nakkiran
発行日 2025-04-22 06:41:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | CiteFix: Enhancing RAG Accuracy Through Post-Processing Citation Correction はコメントを受け付けていません

Exploiting Contextual Knowledge in LLMs through V-usable Information based Layer Enhancement

要約

大規模な言語モデル(LLMS)は、さまざまなタスクで顕著な能力を実証していますが、文脈的知識を適切に反映する文脈の忠実さの世代と格闘していることがよくあります。
既存のアプローチは、デコード戦略の強化に焦点を当てていますが、LLMSの内部状態内でコンテキスト情報がどのように処理されるかの基本的なメカニズムを無視します。
その結果、LLMSは、コンテキストの知識を完全に活用する能力が限られたままです。
この論文では、LLMSの内部表現内のコンテキスト知識の利用を強化する新しい介入方法であるコンテキストアウェアレイヤーエンハンスメント(CALE)を提案します。
V使用可能な情報分析を採用することにより、Caleは最適な層でコンテキスト情報の成長を戦略的に増幅し、それにより最終層の表現を濃縮します。
私たちの実験は、Caleが、特に不明または矛盾する文脈的知識を含むシナリオで、問題を解決するタスクにおけるコンテキストの信念の生成を効果的に改善することを示しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities in various tasks, yet they often struggle with context-faithfulness generations that properly reflect contextual knowledge. While existing approaches focus on enhancing the decoding strategies, they ignore the fundamental mechanism of how contextual information is processed within LLMs’ internal states. As a result, LLMs remain limited in their ability to fully leverage contextual knowledge. In this paper, we propose Context-aware Layer Enhancement (CaLE), a novel intervention method that enhances the utilization of contextual knowledge within LLMs’ internal representations. By employing V-usable information analysis, CaLE strategically amplifies the growth of contextual information at an optimal layer, thereby enriching representations in the final layer. Our experiments demonstrate that CaLE effectively improves context-faithful generation in Question-Answering tasks, particularly in scenarios involving unknown or conflicting contextual knowledge.

arxiv情報

著者 Xiaowei Yuan,Zhao Yang,Ziyang Huang,Yequan Wang,Siqi Fan,Yiming Ju,Jun Zhao,Kang Liu
発行日 2025-04-22 06:42:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Exploiting Contextual Knowledge in LLMs through V-usable Information based Layer Enhancement はコメントを受け付けていません

Cost-Effective Text Clustering with Large Language Models

要約

テキストクラスタリングは、言語機能に基づいて、テキストドキュメントのコレクションを個別のクラスターに自動的に分割することを目的としています。
文献では、このタスクは通常、事前に訓練されたエンコーダーからのテキストの埋め込みまたはオラクルからのペアワイズの類似性、例えば大きなMLモデルのグラフクラスタリング問題に基づいてメトリッククラスタリングとして囲まれています。
最近、大規模な言語モデル(LLM)は、コンテキスト化されたテキストの埋め込みと非常に正確な類似性スコアを提供することにより、この分野に大きな進歩をもたらしますが、モデルへの多数のAPIベースのクエリまたは推論呼び出しに起因する実質的な計算および/または財務間のオーバーヘッドに対処するという壮大な課題を提示します。
これに応じて、このペーパーでは、LLMSからの正確なテキストクラスタリングのためにLLMSからのフィードバックを利用して、LLMSへのクエリの予算内で正確なテキストクラスタリングをタップする費用対効果の高いフレームワークであるTECLを提案します。
ボンネットの下で、TECLはEdgellmまたはTriAnglellmを採用して、テキストペアのマストリンク/リンク制約を作成し、さらにクラスターを生成するための加重制約クラスタリングアプローチに入力する監督信号などの制約をさらに活用します。
特に、Edgellm(Resp。trianglellm)により、よく考えられた貪欲なアルゴリズムと慎重に作成されたプロンプト技術を介したペアワイズ制約の正確な抽出を介して、LLMを照会するための有益なテキストペア(Resp。triplets)の識別を可能にします。
複数のベンチマークデータセットでの実験は、TECLがLLMSの同じクエリコストで監視されていないテキストクラスタリングの既存のソリューションを一貫してかなり上回ることを示しています。

要約(オリジナル)

Text clustering aims to automatically partition a collection of text documents into distinct clusters based on linguistic features. In the literature, this task is usually framed as metric clustering based on text embeddings from pre-trained encoders or a graph clustering problem upon pairwise similarities from an oracle, e.g., a large ML model. Recently, large language models (LLMs) bring significant advancement in this field by offering contextualized text embeddings and highly accurate similarity scores, but meanwhile, present grand challenges to cope with substantial computational and/or financial overhead caused by numerous API-based queries or inference calls to the models. In response, this paper proposes TECL, a cost-effective framework that taps into the feedback from LLMs for accurate text clustering within a limited budget of queries to LLMs. Under the hood, TECL adopts our EdgeLLM or TriangleLLM to construct must-link/cannot-link constraints for text pairs, and further leverages such constraints as supervision signals input to our weighted constrained clustering approach to generate clusters. Particularly, EdgeLLM (resp. TriangleLLM) enables the identification of informative text pairs (resp. triplets) for querying LLMs via well-thought-out greedy algorithms and accurate extraction of pairwise constraints through carefully-crafted prompting techniques. Our experiments on multiple benchmark datasets exhibit that TECL consistently and considerably outperforms existing solutions in unsupervised text clustering under the same query cost for LLMs.

arxiv情報

著者 Hongtao Wang,Taiyan Zhang,Renchi Yang,Jianliang Xu
発行日 2025-04-22 06:57:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Cost-Effective Text Clustering with Large Language Models はコメントを受け付けていません

Computational Typology

要約

類型学は、構造的特徴に基づいた言語の研究と分類に焦点を当てた言語学のサブフィールドです。
言語間の歴史的関係を調べる系図分類とは異なり、類型学は、普遍的であると知られる共通の特性とパターンを特定することにより、人間の言語の多様性を理解しようとしています。
近年、計算方法は類型研究でますます重要な役割を果たしており、大規模な言語データの分析と、言語構造と進化に関する仮説のテストを可能にします。
この記事では、類型学における計算統計モデリングの利点の図を示します。

要約(オリジナル)

Typology is a subfield of linguistics that focuses on the study and classification of languages based on their structural features. Unlike genealogical classification, which examines the historical relationships between languages, typology seeks to understand the diversity of human languages by identifying common properties and patterns, known as universals. In recent years, computational methods have played an increasingly important role in typological research, enabling the analysis of large-scale linguistic data and the testing of hypotheses about language structure and evolution. This article provides an illustration of the benefits of computational statistical modeling in typology.

arxiv情報

著者 Gerhard Jäger
発行日 2025-04-22 06:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, q-bio.PE | Computational Typology はコメントを受け付けていません

Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree

要約

大規模な言語モデルの推論速度を高めるために、最小限のドラフトのレイテンシと高い投機精度との間の最適なバランスをとることは、投機的デコードにおける重要な課題のままです。
このペーパーでは、ドラフトの並列性と出力品質の両方を増強するために作られた革新的な半自動的投機的デコードフレームワークであるFalconを紹介します。
Falconには、同じブロック内のトークン間依存関係を強化する結合された連続視線蒸留技術が組み込まれており、推測の精度が向上します。
基礎となるメカニズムを照らすために、包括的な理論分析を提供します。
さらに、カスタム設計のデコードツリーを導入します。これにより、ドラフトが単一のフォワードパスで複数のトークンを生成し、必要に応じて複数のフォワードパスに対応できるため、ドラフトされたトークンの数を増やし、全体的な受け入れ率を大幅に改善します。
MTベンチ、Humanval、GSM8Kなどのベンチマークデータセットに関する包括的な評価は、Falconの優れた加速能力を示しています。
このフレームワークは、VicunaおよびLlama2-Chatモデルシリーズでテストされた場合、2.91xから3.51xの範囲のロスレススピードアップ比を達成します。
これらの結果は、イーグル、メデューサ、Lookahead、SPS、PLDなど、LLMの既存の投機的解読方法を上回り、2つの変圧器層に相当するコンパクトな草案アーキテクチャを維持します。

要約(オリジナル)

Striking an optimal balance between minimal drafting latency and high speculation accuracy to enhance the inference speed of Large Language Models remains a significant challenge in speculative decoding. In this paper, we introduce Falcon, an innovative semi-autoregressive speculative decoding framework fashioned to augment both the drafter’s parallelism and output quality. Falcon incorporates the Coupled Sequential Glancing Distillation technique, which fortifies inter-token dependencies within the same block, leading to increased speculation accuracy. We offer a comprehensive theoretical analysis to illuminate the underlying mechanisms. Additionally, we introduce a Custom-Designed Decoding Tree, which permits the drafter to generate multiple tokens in a single forward pass and accommodates multiple forward passes as needed, thereby boosting the number of drafted tokens and significantly improving the overall acceptance rate. Comprehensive evaluations on benchmark datasets such as MT-Bench, HumanEval, and GSM8K demonstrate Falcon’s superior acceleration capabilities. The framework achieves a lossless speedup ratio ranging from 2.91x to 3.51x when tested on the Vicuna and LLaMA2-Chat model series. These results outstrip existing speculative decoding methods for LLMs, including Eagle, Medusa, Lookahead, SPS, and PLD, while maintaining a compact drafter architecture equivalent to merely two Transformer layers.

arxiv情報

著者 Xiangxiang Gao,Weisheng Xie,Yiwei Xiang,Feng Ji
発行日 2025-04-22 07:32:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree はコメントを受け付けていません

VeriCoder: Enhancing LLM-Based RTL Code Generation through Functional Correctness Validation

要約

大規模な言語モデル(LLMS)の最近の進歩により、電子設計自動化(EDA)タスク、特にレジスタ転送レベル(RTL)コード生成にそれらを適用することに関心が高まっています。
いくつかのRTLデータセットが導入されていますが、テストでの機能的検証ではなく、構文の妥当性にほとんど焦点を当てているため、意図した動作をコンパイルしていない可能性のあるトレーニング例につながります。
機能的正しさのために検証されたデータセットで微調整されたRTLコード生成のモデルであるVericoderを提示します。
この微調整データセットは、ユニットテストの生成とフィードバック指向の改良を組み合わせた新しい方法論を使用して構築されます。
自然言語の仕様と初期のRTL設計を考慮して、教師モデル(GPT-4O-MINI)にユニットテストを生成し、生成されたテストを使用してシミュレーション結果に基づいてRTL設計を繰り返し修正します。
必要に応じて、教師モデルはテストを更新して、自然言語の仕様に準拠していることを確認します。
このプロセスの結果として、データセットのすべての例は、自然言語の説明、RTLの実装、および合格テストで構成される機能的に検証されています。
125,000を超える例のこのデータセットで微調整されたVericoderは、それぞれ最大71.7%と27.4%の相対的な利益を得て、VerilogevalとRTLLMの機能的正しさで最先端のメトリックを達成します。
アブレーション研究はさらに、機能的に検証されたデータセットでトレーニングされたモデルは、機能的に検証されていないデータセットでトレーニングされたデータを上回ることを示しており、RTLコード生成における高品質のデータセットの重要性を強調しています。

要約(オリジナル)

Recent advances in Large Language Models (LLMs) have sparked growing interest in applying them to Electronic Design Automation (EDA) tasks, particularly Register Transfer Level (RTL) code generation. While several RTL datasets have been introduced, most focus on syntactic validity rather than functional validation with tests, leading to training examples that compile but may not implement the intended behavior. We present VERICODER, a model for RTL code generation fine-tuned on a dataset validated for functional correctness. This fine-tuning dataset is constructed using a novel methodology that combines unit test generation with feedback-directed refinement. Given a natural language specification and an initial RTL design, we prompt a teacher model (GPT-4o-mini) to generate unit tests and iteratively revise the RTL design based on its simulation results using the generated tests. If necessary, the teacher model also updates the tests to ensure they comply with the natural language specification. As a result of this process, every example in our dataset is functionally validated, consisting of a natural language description, an RTL implementation, and passing tests. Fine-tuned on this dataset of over 125,000 examples, VERICODER achieves state-of-the-art metrics in functional correctness on VerilogEval and RTLLM, with relative gains of up to 71.7% and 27.4% respectively. An ablation study further shows that models trained on our functionally validated dataset outperform those trained on functionally non-validated datasets, underscoring the importance of high-quality datasets in RTL code generation.

arxiv情報

著者 Anjiang Wei,Huanmi Tan,Tarun Suresh,Daniel Mendoza,Thiago S. F. X. Teixeira,Ke Wang,Caroline Trippel,Alex Aiken
発行日 2025-04-22 07:32:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.CL, cs.LG, cs.SE | VeriCoder: Enhancing LLM-Based RTL Code Generation through Functional Correctness Validation はコメントを受け付けていません