Should AI Optimize Your Code? A Comparative Study of Classical Optimizing Compilers Versus Current Large Language Models

要約

従来の最適化コンパイラは、最新のソフトウェアシステムの複雑さの高まりに適応する上で重要な役割を果たしてきました。
現在のアーキテクチャで効率的な並列プログラミングの必要性には、強力な最適化手法が必要です。
大規模な言語モデル(LLMS)の始まりは、コード最適化方法論に革命を起こすこれらのAIアプローチの可能性について興味深い質問を提起します。
この作業は、コンパイラコミュニティにとって重要な質問に答えることを目的としています。「AI主導のモデルは、コードの最適化へのアプローチ方法に革命をもたらすことができますか?」
この質問に対処するために、3つの古典的な最適化コンパイラと最近の2つの大規模な言語モデルの間の比較分析を提示し、最大の効率のためにコードを最適化する能力と制限を評価します。
さらに、挑戦的な最適化パターンのベンチマークスイートと、LLMSによって生成されたコードのパフォーマンスと正確性を評価するための自動メカニズムを導入します。
3つの異なるプロンプト戦略を使用して、LLMSのパフォーマンス、簡単な指示(IP)、詳細な指示プロンプト(DIP)、およびChain of Think(COT)を評価しました。
重要な発見は、LLMが現在の最適化コンパイラを上回る可能性があるが、多くの場合、自動検証方法を要求して、大規模なコードサイズに誤ったコードを生成することが多いことです。
さらに、LLMSプロンプトの一部としてコンパイラ戦略を表現することにより、全体的なパフォーマンスが大幅に向上します。
3つのベンチマークスイートにわたる評価は、Codellama-70Bが優れたLLMとして、最大X1.75のスピードアップを達成できることを示しています。
さらに、Cetusは現在の最適化コンパイラの中で最高であり、最大スピードアップは1.67倍になります。
また、3つのプロンプト戦略の間に大きな違いがありました。

要約(オリジナル)

Traditional optimizing compilers have played an important role in adapting to the growing complexity of modern software systems. The need for efficient parallel programming in current architectures requires strong optimization techniques. The beginning of Large Language Models (LLMs) raises intriguing questions about the potential of these AI approaches to revolutionize code optimization methodologies. This work aims to answer an essential question for the compiler community: ‘Can AI-driven models revolutionize the way we approach code optimization?’. To address this question, we present a comparative analysis between three classical optimizing compilers and two recent large language models, evaluating their respective abilities and limitations in optimizing code for maximum efficiency. In addition, we introduce a benchmark suite of challenging optimization patterns and an automatic mechanism for evaluating the performance and correctness of the code generated by LLMs. We used three different prompting strategies to evaluate the performance of the LLMs, Simple Instruction (IP), Detailed Instruction Prompting (DIP), and Chain of Thought (CoT). A key finding is that while LLMs have the potential to outperform current optimizing compilers, they often generate incorrect code on large code sizes, calling for automated verification methods. In addition, expressing a compiler strategy as part of the LLMs prompt substantially improves its overall performance. Our evaluation across three benchmark suites shows CodeLlama-70B as the superior LLM, capable of achieving speedups of up to x1.75. Additionally, CETUS is the best among the current optimizing compilers, achieving a maximum speedup of 1.67x. We also found substantial differences among the three prompting strategies.

arxiv情報

著者 Miguel Romero Rosas,Miguel Torres Sanchez,Rudolf Eigenmann
発行日 2025-04-02 17:22:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.PF, cs.SE パーマリンク