要約
大規模言語モデル (LLM) ベースのコーディング ツールは、ソフトウェア開発アシスタントとして大きな成功を収めていますが、多くの場合、汎用プログラミング タスク用に設計されており、ハイ パフォーマンス コンピューティングなどのより特殊な領域ではパフォーマンスが不十分です。
HPC などの分野で LLM のメリットを得るには、これらのドメインに特化したモデルとツールを作成することが重要です。
これまでの研究では HPC 固有のモデルが検討されてきましたが、LLM は依然として並列コードを生成するのに苦労しており、どのようなハードルがこれらの LLM を妨げているのか、またそれらを克服するために何をしなければならないのかはまったく明らかではありません。
この作業では、課題をより深く理解するために、特殊な HPC LLM を微調整する多くの軸に沿って詳細な調査を実施します。
私たちの調査結果に基づいて、これまでの並列コード生成において最もパフォーマンスの高いオープンソース コード LLM であることが示されている特殊な HPC LLM を微調整して評価します。
要約(オリジナル)
Large Language Model (LLM) based coding tools have been tremendously successful as software development assistants, yet they are often designed for general purpose programming tasks and perform poorly for more specialized domains such as high performance computing. Creating specialized models and tools for these domains is crucial towards gaining the benefits of LLMs in areas such as HPC. While previous work has explored HPC-specific models, LLMs still struggle to generate parallel code and it is not at all clear what hurdles are still holding back these LLMs and what must be done to overcome them. In this work, we conduct an in-depth study along the many axes of fine-tuning a specialized HPC LLM in order to better understand the challenges. Based on our findings we fine-tune and evaluate a specialized HPC LLM that is shown to be the best performing open-source code LLM for parallel code generation to date.
arxiv情報
著者 | Aman Chaturvedi,Daniel Nichols,Siddharth Singh,Abhinav Bhatele |
発行日 | 2024-12-19 18:52:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google