要約
強力なコンピューティング リソースに簡単にアクセスできるようになったことで、ソフトウェア開発用 AI の分野では、さまざまなプログラミング タスクに対応するためにますます大規模な言語モデル (LLM) を開発する傾向が高まっています。
ハイパフォーマンス コンピューティング (HPC) ドメインのタスクに適用される LLM でさえ、サイズが巨大で (たとえば、数十億のパラメーター)、トレーニングには高価なコンピューティング リソースが必要です。
この設計の選択は混乱を招くものであることがわかりました。HPC 固有のタスクのために、HPC に関係のない自然言語やプログラミング言語でトレーニングされた大規模な LLM がなぜ必要なのでしょうか?
この一連の作業では、特定のドメイン向けのより小さな LLM (これをドメイン固有 LLM と呼びます) を開発することで、既存の LLM による設計上の選択に疑問を呈することを目指しています。
具体的には、ドメインとして HPC から始めて、HPC でのコードの前処理とコンパイル中心のタスク用に特別に設計された Tokompiler という名前の新しいトークナイザーを提案します。
Tokompiler は、言語プリミティブの知識を活用して言語指向のトークンを生成し、コード構造に起因する人間のセマンティクスを完全に回避しながら、コード構造のコンテキストを認識した理解を提供します。
私たちは Tokompiler を適用して、GitHub からマイニングされた Fortran コード コーパス用の 2 つの最先端モデル、SPT コードとポリコーダーを事前トレーニングしました。
これらのモデルのパフォーマンスを従来の LLM と比較して評価します。
結果は、正規化された複雑さのテストにおいて、Tokompiler が従来のトークナイザーと比較して、コード補完の精度と意味の理解を大幅に向上させ、最大 1 の複雑さスコアまで向上させることを示しています。
この研究は、HPC およびコンパイル タスクの固有の要求に応え、ドメイン固有の LLM をさらに進歩させる道を開きます。
要約(オリジナル)
With easier access to powerful compute resources, there is a growing trend in the field of AI for software development to develop larger and larger language models (LLMs) to address a variety of programming tasks. Even LLMs applied to tasks from the high-performance computing (HPC) domain are huge in size (e.g., billions of parameters) and demand expensive compute resources for training. We found this design choice confusing – why do we need large LLMs trained on natural languages and programming languages unrelated to HPC for HPC-specific tasks? In this line of work, we aim to question design choices made by existing LLMs by developing smaller LLMs for specific domains – we call them domain-specific LLMs. Specifically, we start off with HPC as a domain and propose a novel tokenizer named Tokompiler, designed specifically for preprocessing code in HPC and compilation-centric tasks. Tokompiler leverages knowledge of language primitives to generate language-oriented tokens, providing a context-aware understanding of code structure while avoiding human semantics attributed to code structures completely. We applied Tokompiler to pre-train two state-of-the-art models, SPT-Code and Polycoder, for a Fortran code corpus mined from GitHub. We evaluate the performance of these models against the conventional LLMs. Results demonstrate that Tokompiler significantly enhances code completion accuracy and semantic understanding compared to traditional tokenizers in normalized-perplexity tests, down to ~1 perplexity score. This research opens avenues for further advancements in domain-specific LLMs, catering to the unique demands of HPC and compilation tasks.
arxiv情報
著者 | Tal Kadosh,Niranjan Hasabnis,Vy A. Vo,Nadav Schneider,Neva Krien,Abdul Wasay,Nesreen Ahmed,Ted Willke,Guy Tamir,Yuval Pinter,Timothy Mattson,Gal Oren |
発行日 | 2023-09-29 16:11:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google