Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study

要約

ChatGPTやGeminiなどの大規模言語モデルの登場により、自然言語理解からコード生成まで、その多様な能力を評価することの重要性が強調されている。しかし、空間タスクに対する性能は包括的に評価されていない。本研究では、空間タスクにおける複数の先進的なモデルの性能を系統的に探索し比較するために設計された、新しいマルチタスク空間評価データセットを導入することで、このギャップに対処する。このデータセットには、空間理解や経路計画を含む12種類のタスクが含まれており、それぞれ検証済みの正確な解答が用意されている。OpenAIのgpt-3.5-turbo、gpt-4o、ZhipuAIのglm-4を含む複数のモデルを、2段階のテストアプローチで評価した。最初にゼロショットテストを行い、次にデータセットを難易度別に分類し、迅速なチューニングテストを行った。その結果、第一段階ではgpt-4oが平均71.3%と最も高い総合精度を達成した。moonshot-v1-8kは全体ではやや劣るものの、地名認識タスクではgpt-4oを上回った。この研究では、プロンプト戦略が特定のタスクにおけるモデルのパフォーマンスに与える影響も明らかにしている。例えば、Chain-of-Thought(COT)戦略は経路計画におけるgpt-4oの精度を12.4%から87.5%に向上させ、ワンショット戦略はマッピングタスクにおけるmoonshot-v1-8kの精度を10.1%から76.3%に向上させた。

要約(オリジナル)

The advent of large language models such as ChatGPT, Gemini, and others has underscored the importance of evaluating their diverse capabilities, ranging from natural language understanding to code generation. However, their performance on spatial tasks has not been comprehensively assessed. This study addresses this gap by introducing a novel multi-task spatial evaluation dataset, designed to systematically explore and compare the performance of several advanced models on spatial tasks. The dataset encompasses twelve distinct task types, including spatial understanding and path planning, each with verified, accurate answers. We evaluated multiple models, including OpenAI’s gpt-3.5-turbo, gpt-4o, and ZhipuAI’s glm-4, through a two-phase testing approach. Initially, we conducted zero-shot testing, followed by categorizing the dataset by difficulty and performing prompt tuning tests. Results indicate that gpt-4o achieved the highest overall accuracy in the first phase, with an average of 71.3%. Although moonshot-v1-8k slightly underperformed overall, it surpassed gpt-4o in place name recognition tasks. The study also highlights the impact of prompt strategies on model performance in specific tasks. For example, the Chain-of-Thought (COT) strategy increased gpt-4o’s accuracy in path planning from 12.4% to 87.5%, while a one-shot strategy enhanced moonshot-v1-8k’s accuracy in mapping tasks from 10.1% to 76.3%.

arxiv情報

著者 Liuchang Xu,Shuo Zhao,Qingming Lin,Luyao Chen,Qianqian Luo,Sensen Wu,Xinyue Ye,Hailin Feng,Zhenhong Du
発行日 2024-09-02 11:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CY パーマリンク