要約
自然言語で記述されたコンピューター プログラムを実行することは、コンピューター サイエンスの長年の追求でした。
大規模言語モデル (LLM) によって示される強化された自然言語理解機能の出現により、この目標に向かう道が明らかになりました。
この論文では、現代の LLM が自然言語で概説されたアルゴリズムを理解して実行する能力を調査することを目指しています。
私たちは、広く使用されている代表的なアルゴリズムを多数含む有名な教科書である「アルゴリズム入門」をソースとしたアルゴリズム テスト セットを作成しました。
LLM のコード実行能力を系統的に評価するために、30 個のアルゴリズムを選択し、ランダムにサンプリングされた合計 300 個のインスタンスを生成し、人気のある LLM がこれらのアルゴリズムを理解して実行できるかどうかを評価しました。
私たちの調査結果は、LLM、特に GPT-4 は、大量の数値計算が関与しない限り、自然言語で記述されたプログラムを効果的に実行できることを明らかにしました。
私たちは、私たちの調査結果が LLM のコード実行能力の評価に貢献し、LLM の計算能力に関するさらなる調査と応用を促進すると信じています。
要約(オリジナル)
Executing computer programs described in natural language has long been a pursuit of computer science. With the advent of enhanced natural language understanding capabilities exhibited by large language models (LLMs), the path toward this goal has been illuminated. In this paper, we seek to examine the capacity of present-day LLMs to comprehend and execute algorithms outlined in natural language. We established an algorithm test set sourced from Introduction to Algorithm, a well-known textbook that contains many representative widely-used algorithms. To systematically assess LLMs’ code execution abilities, we selected 30 algorithms, generated 300 random-sampled instances in total, and evaluated whether popular LLMs can understand and execute these algorithms. Our findings reveal that LLMs, notably GPT-4, can effectively execute programs described in natural language, as long as no heavy numeric computation is involved. We believe our findings contribute to evaluating LLMs’ code execution abilities and would encourage further investigation and application for the computation power of LLMs.
arxiv情報
著者 | Xin Zheng,Qiming Zhu,Hongyu Lin,Yaojie Lu,Xianpei Han,Le Sun |
発行日 | 2024-03-14 14:25:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google