Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study

要約

ChatGPT、Gemini などの大規模な言語モデルの出現により、自然言語理解からコード生成に至るまで、その多様な機能を評価することの重要性が浮き彫りになりました。
ただし、空間タスクにおける彼らのパフォーマンスは包括的に評価されていません。
この研究では、空間タスクに関するいくつかの高度なモデルのパフォーマンスを体系的に調査および比較するように設計された、新しいマルチタスク空間評価データセットを導入することで、このギャップに対処しています。
このデータセットには、空間理解や経路計画など 12 種類の異なるタスクが含まれており、それぞれに検証済みの正確な答えが含まれています。
私たちは、OpenAI の gpt-3.5-turbo、gpt-4o、ZhipuAI の glm-4 などの複数のモデルを 2 段階のテスト アプローチを通じて評価しました。
最初にゼロショット テストを実施し、続いてデータセットを難易度ごとに分類し、即時調整テストを実行しました。
結果は、gpt-4o が第 1 フェーズで平均 71.3% という最高の全体精度を達成したことを示しています。
Moonshot-v1-8k は全体的にわずかにパフォーマンスを下回りましたが、場所の名前認識タスクでは gpt-4o を上回りました。
この研究では、特定のタスクにおけるモデルのパフォーマンスに対するプロンプト戦略の影響も強調しています。
たとえば、思考連鎖 (COT) 戦略により、経路計画における gpt-4o の精度が 12.4% から 87.5% に向上しました。一方、ワンショット戦略により、マッピング タスクにおける Moonshot-v1-8k の精度が 10.1% から 76.3% に向上しました。

要約(オリジナル)

The advent of large language models such as ChatGPT, Gemini, and others has underscored the importance of evaluating their diverse capabilities, ranging from natural language understanding to code generation. However, their performance on spatial tasks has not been comprehensively assessed. This study addresses this gap by introducing a novel multi-task spatial evaluation dataset, designed to systematically explore and compare the performance of several advanced models on spatial tasks. The dataset encompasses twelve distinct task types, including spatial understanding and path planning, each with verified, accurate answers. We evaluated multiple models, including OpenAI’s gpt-3.5-turbo, gpt-4o, and ZhipuAI’s glm-4, through a two-phase testing approach. Initially, we conducted zero-shot testing, followed by categorizing the dataset by difficulty and performing prompt tuning tests. Results indicate that gpt-4o achieved the highest overall accuracy in the first phase, with an average of 71.3%. Although moonshot-v1-8k slightly underperformed overall, it surpassed gpt-4o in place name recognition tasks. The study also highlights the impact of prompt strategies on model performance in specific tasks. For example, the Chain-of-Thought (COT) strategy increased gpt-4o’s accuracy in path planning from 12.4% to 87.5%, while a one-shot strategy enhanced moonshot-v1-8k’s accuracy in mapping tasks from 10.1% to 76.3%.

arxiv情報

著者 Liuchang Xu Shuo Zhao,Qingming Lin,Luyao Chen,Qianqian Luo,Sensen Wu,Xinyue Ye,Hailin Feng,Zhenhong Du
発行日 2024-08-26 17:25:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク