ChatGPT for GTFS: Benchmarking LLMs on GTFS Understanding and Retrieval

要約

トランジットデータを公開するためのGTFS(General Transit Feed Specification)標準は、どこにでもある。GTFSは表形式のデータであり、情報がさまざまなファイルに分散しているため、情報を検索するための特別なツールやパッケージが必要となる。同時に、テキストと情報検索のための大規模言語モデル(LLM)の使用も増加している。本研究では、現在広く採用されているLLM(ChatGPT)が、GTFSを理解し、明示的に情報を提供することなく、自然言語命令を用いてGTFSから情報を検索できるかどうかを確認することを目的とする。本研究では、ChatGPTのバックボーンであるOpenAIのGPT-3.5-TurboとGPT-4 LLMをベンチマークします。GPT-3.5-Turboでは59.7%、GPT-4では73.3%が正解し、GTFSを正しく理解していることが分かりました。さらに、4つの経路を含むフィルタリングされたGTFSフィードを用いた情報抽出タスクでLLMを評価した。その結果、GPT-4 (GPT-3.5-Turbo)を使用した場合、単純なクエリでは93% (90%)、複雑なクエリでは61% (41%)の精度を達成し、プログラム合成技術がゼロショット手法を凌駕することがわかった。

要約(オリジナル)

The General Transit Feed Specification (GTFS) standard for publishing transit data is ubiquitous. GTFS being tabular data, with information spread across different files, necessitates specialized tools or packages to retrieve information. Concurrently, the use of Large Language Models(LLMs) for text and information retrieval is growing. The idea of this research is to see if the current widely adopted LLMs (ChatGPT) are able to understand GTFS and retrieve information from GTFS using natural language instructions without explicitly providing information. In this research, we benchmark OpenAI’s GPT-3.5-Turbo and GPT-4 LLMs which are the backbone of ChatGPT. ChatGPT demonstrates a reasonable understanding of GTFS by answering 59.7% (GPT-3.5-Turbo) and 73.3% (GPT-4) of our multiple-choice questions (MCQ) correctly. Furthermore, we evaluated the LLMs on information extraction tasks using a filtered GTFS feed containing four routes. We found that program synthesis techniques outperformed zero-shot approaches, achieving up to 93% (90%) accuracy for simple queries and 61% (41%) for complex ones using GPT-4 (GPT-3.5-Turbo).

arxiv情報

著者 Saipraneeth Devunuri,Shirin Qiam,Lewis Lehe
発行日 2023-11-03 17:09:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク