Capabilities of Large Language Models in Control Engineering: A Benchmark Study on GPT-4, Claude 3 Opus, and Gemini 1.0 Ultra

要約

本論文では、GPT-4、Claude 3 Opus、Gemini 1.0 Ultraなどの最先端の大規模言語モデル(LLM)が、学部レベルの制御問題を解く際にどのような能力を発揮するかを探る。制御は、数学的理論と工学的設計の組み合わせであるため、LLM推論の興味深いケーススタディを提供する。古典的な制御設計の広さ、深さ、複雑さを反映するように調整されたベンチマークデータセットであるControlBenchを紹介する。このデータセットを用いて、制御工学の文脈におけるLLMの問題解決能力を研究・評価する。人間の専門家パネルによる評価を行い、制御工学におけるLLMの正確さ、推論、説明能力に関する洞察を提供する。我々の分析は、古典制御の文脈における各LLMの長所と限界を明らかにし、我々の結果は、Claude 3 Opusが学部生の制御問題を解くための最先端のLLMになったことを示唆している。我々の研究は、制御工学に人工知能を採用するという、より広範な目標に向けた最初の一歩となる。

要約(オリジナル)

In this paper, we explore the capabilities of state-of-the-art large language models (LLMs) such as GPT-4, Claude 3 Opus, and Gemini 1.0 Ultra in solving undergraduate-level control problems. Controls provides an interesting case study for LLM reasoning due to its combination of mathematical theory and engineering design. We introduce ControlBench, a benchmark dataset tailored to reflect the breadth, depth, and complexity of classical control design. We use this dataset to study and evaluate the problem-solving abilities of these LLMs in the context of control engineering. We present evaluations conducted by a panel of human experts, providing insights into the accuracy, reasoning, and explanatory prowess of LLMs in control engineering. Our analysis reveals the strengths and limitations of each LLM in the context of classical control, and our results imply that Claude 3 Opus has become the state-of-the-art LLM for solving undergraduate control problems. Our study serves as an initial step towards the broader goal of employing artificial general intelligence in control engineering.

arxiv情報

著者 Darioush Kevian,Usman Syed,Xingang Guo,Aaron Havens,Geir Dullerud,Peter Seiler,Lianhui Qin,Bin Hu
発行日 2024-04-04 17:58:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, math.OC パーマリンク