Enhancing Cross-Language Code Translation via Task-Specific Embedding Alignment in Retrieval-Augmented Generation

要約

タスク固有の埋め込みアライメントを検索拡張生成 (RAG) フレームワークに統合することで、Fortran から C++ への言語間コード変換を強化する新しい方法を紹介します。
下流のタスクに依存しない汎用埋め込みを利用する従来の検索アプローチとは異なり、当社の戦略は、CodeBLEU メトリクスで定量化される翻訳品質を最大化するという目的に直接検索モデルを調整します。
この調整により、埋め込みが特定のコード変換タスクにとって意味的および構文的に意味のあるものになることが保証されます。
私たちの方法論には、Stack-V2 データセットをソースとする 25,000 の Fortran コード スニペットのデータセットを構築し、LLaMA 3.1-8B 言語モデルを使用して対応する C++ 翻訳を生成することが含まれます。
生成された翻訳とグラウンド トゥルースの例の間でペアごとの CodeBLEU スコアを計算し、きめ細かい類似性をキャプチャします。
これらのスコアは、対照的な学習フレームワークにおける監視信号として機能し、埋め込みモデルを最適化して、言語モデルの翻訳パフォーマンスの向上に最も有益な Fortran-C++ ペアを取得します。
これらの CodeBLEU に最適化された埋め込みを RAG フレームワークに統合することにより、私たちのアプローチは、汎用の埋め込みを使用する方法と比べて、取得精度とコード生成品質の両方を大幅に向上させます。
HPC Fortran2C++ データセットでは、私たちのメソッドにより CodeBLEU の平均スコアが 0.64 から 0.73 に上昇し、14% の相対的な改善が達成されました。
Numerical Recipes データセットでは、0.52 から 0.60 への増加が観察され、15% の相対的な改善が見られます。
重要なのは、これらの利点は言語モデルを微調整することなく実現されており、私たちのアプローチの効率性と実用性を強調しています。

要約(オリジナル)

We introduce a novel method to enhance cross-language code translation from Fortran to C++ by integrating task-specific embedding alignment into a Retrieval-Augmented Generation (RAG) framework. Unlike conventional retrieval approaches that utilize generic embeddings agnostic to the downstream task, our strategy aligns the retrieval model directly with the objective of maximizing translation quality, as quantified by the CodeBLEU metric. This alignment ensures that the embeddings are semantically and syntactically meaningful for the specific code translation task. Our methodology involves constructing a dataset of 25,000 Fortran code snippets sourced from Stack-V2 dataset and generating their corresponding C++ translations using the LLaMA 3.1-8B language model. We compute pairwise CodeBLEU scores between the generated translations and ground truth examples to capture fine-grained similarities. These scores serve as supervision signals in a contrastive learning framework, where we optimize the embedding model to retrieve Fortran-C++ pairs that are most beneficial for improving the language model’s translation performance. By integrating these CodeBLEU-optimized embeddings into the RAG framework, our approach significantly enhances both retrieval accuracy and code generation quality over methods employing generic embeddings. On the HPC Fortran2C++ dataset, our method elevates the average CodeBLEU score from 0.64 to 0.73, achieving a 14% relative improvement. On the Numerical Recipes dataset, we observe an increase from 0.52 to 0.60, marking a 15% relative improvement. Importantly, these gains are realized without any fine-tuning of the language model, underscoring the efficiency and practicality of our approach.

arxiv情報

著者 Manish Bhattarai,Minh Vu,Javier E. Santos,Ismael Boureima,Daniel O’ Malley
発行日 2024-12-06 16:22:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク