Creating a Dataset for High-Performance Computing Code Translation: A Bridge Between HPC Fortran and C++


この研究では、OpenMP Fortran と C++ コードの間で変換する機械学習モデルをトレーニングするための新しいデータセットを紹介します。
データセットの有効性は、定量的 (CodeBLEU) 手法と定性的 (人間による評価) 手法の両方を使用して評価されます。
このデータセットが大規模言語モデルの翻訳機能を大幅に向上させる方法を実証します。事前のコーディング知識のないモデルでは $\mathbf{\times 5.1}$ 、コーディング知識のあるモデルでは $\mathbf{\times 9.9}$ の改善が見られます。
私たちの研究は、ハイパフォーマンス コンピューティングのためのコード変換の分野を前進させるこのデータセットの可能性を浮き彫りにしています。
データセットは で入手できます。


In this study, we present a novel dataset for training machine learning models translating between OpenMP Fortran and C++ code. To ensure reliability and applicability, the dataset is initially refined using a meticulous code similarity test. The effectiveness of our dataset is assessed using both quantitative (CodeBLEU) and qualitative (human evaluation) methods. We demonstrate how this dataset can significantly improve the translation capabilities of large-scale language models, with improvements of $\mathbf{\times 5.1}$ for models with no prior coding knowledge and $\mathbf{\times 9.9}$ for models with some coding familiarity. Our work highlights the potential of this dataset to advance the field of code translation for high-performance computing. The dataset is available at


著者 Bin Lei,Caiwen Ding,Le Chen,Pei-Hung Lin,Chunhua Liao
発行日 2023-07-28 02:04:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG, cs.SE パーマリンク