要約
大規模言語モデル (LLM) とマルチモーダル大規模言語モデル (MLLM) は、優れた一般的な機能を示し、法律、経済学、交通、医学などの多くの専門分野でも適応性を示しています。
現在、特定の分野における (M)LLM のパフォーマンスを検証するために、多くのドメイン固有のベンチマークが提案されています。
さまざまな分野の中でも、交通は経済、環境、数十億の人々の生活の質に影響を与えるため、現代社会において重要な役割を果たしています。
ただし、(M)LLM がどれだけの交通知識を持っているか、輸送関連のタスクを確実に実行できるかどうかは不明です。
このギャップに対処するために、輸送ドメインにおける (M)LLM を評価するための、慎重に設計された徹底した評価ベンチマークである TransportationGames を提案します。
現実世界のシナリオでのアプリケーションを包括的に検討し、ブルーム分類法の最初の 3 つのレベルを参照することで、選択したタスクによる交通知識の記憶、理解、および適用におけるさまざまな (M)LLM のパフォーマンスをテストします。
実験結果は、一部のモデルは一部のタスクではうまく機能するものの、全体的にはまだ改善の余地が大きいことを示しています。
TransportationGames のリリースが将来の研究の基盤として機能し、それによって交通分野での (M)LLM の実装と応用が加速されることを願っています。
要約(オリジナル)
Large language models (LLMs) and multimodal large language models (MLLMs) have shown excellent general capabilities, even exhibiting adaptability in many professional domains such as law, economics, transportation, and medicine. Currently, many domain-specific benchmarks have been proposed to verify the performance of (M)LLMs in specific fields. Among various domains, transportation plays a crucial role in modern society as it impacts the economy, the environment, and the quality of life for billions of people. However, it is unclear how much traffic knowledge (M)LLMs possess and whether they can reliably perform transportation-related tasks. To address this gap, we propose TransportationGames, a carefully designed and thorough evaluation benchmark for assessing (M)LLMs in the transportation domain. By comprehensively considering the applications in real-world scenarios and referring to the first three levels in Bloom’s Taxonomy, we test the performance of various (M)LLMs in memorizing, understanding, and applying transportation knowledge by the selected tasks. The experimental results show that although some models perform well in some tasks, there is still much room for improvement overall. We hope the release of TransportationGames can serve as a foundation for future research, thereby accelerating the implementation and application of (M)LLMs in the transportation domain.
arxiv情報
著者 | Xue Zhang,Xiangyu Shi,Xinyue Lou,Rui Qi,Yufeng Chen,Jinan Xu,Wenjuan Han |
発行日 | 2024-01-09 10:20:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google