Benchmarking the Capabilities of Large Language Models in Transportation System Engineering: Accuracy, Consistency, and Reasoning Behaviors

要約

このペーパーでは、GPT-4、GPT-4o、Claude 3.5 Sonnet、Claude 3 Opus、Gemini 1.5 Pro、Llama 3、Llama 3.1 などの最先端の大規模言語モデル (LLM) の機能を調査します。
学部レベルの交通工学の問題をいくつか選択して解決します。
TransportBench は、交通システムの計画、設計、管理、制御に関する幅広い主題に関する交通工学の問題のサンプルを含むベンチマーク データセットです。
このデータセットは、人間の専門家によって、輸送工学の問題を解決する際の、さまざまな商用およびオープンソースの LLM の機能、特に精度、一貫性、および推論動作を評価するために使用されます。
当社の包括的な分析により、各 LLM の固有の強みと限界が明らかになります。
私たちの分析では、TransportBench の問題を解決する際の Claude 3.5 Sonnet の驚くべき正確さといくつかの予期せぬ矛盾した動作が示されています。
私たちの研究は、複雑な輸送課題に汎用人工知能を活用するためのスリリングな第一歩を示しています。

要約(オリジナル)

In this paper, we explore the capabilities of state-of-the-art large language models (LLMs) such as GPT-4, GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro, Llama 3, and Llama 3.1 in solving some selected undergraduate-level transportation engineering problems. We introduce TransportBench, a benchmark dataset that includes a sample of transportation engineering problems on a wide range of subjects in the context of planning, design, management, and control of transportation systems. This dataset is used by human experts to evaluate the capabilities of various commercial and open-sourced LLMs, especially their accuracy, consistency, and reasoning behaviors, in solving transportation engineering problems. Our comprehensive analysis uncovers the unique strengths and limitations of each LLM, e.g. our analysis shows the impressive accuracy and some unexpected inconsistent behaviors of Claude 3.5 Sonnet in solving TransportBench problems. Our study marks a thrilling first step toward harnessing artificial general intelligence for complex transportation challenges.

arxiv情報

著者 Usman Syed,Ethan Light,Xingang Guo,Huan Zhang,Lianhui Qin,Yanfeng Ouyang,Bin Hu
発行日 2024-08-15 17:55:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク