Exploring the Effectiveness of GPT Models in Test-Taking: A Case Study of the Driver’s License Knowledge Test

要約

Open AI の Generative Pre-trained Transformer (GPT) モデルなどの大規模な言語モデルは、質問に答えることに熟達していますが、その知識はトレーニング データに存在する情報に限定されています。
この制限により、最近の開発や非公開文書に関する質問に直面した場合、それらは無効になります。
私たちの研究では、これまでトレーニング データに含まれていなかった情報ソースからのコンテキストを採用することで、GPT モデルが質問に回答できるようにする方法を提案しています。
この方法論には、コンテキスト情報の前処理、コンテキストとクエリの埋め込み、コンテキスト埋め込みの統合によるプロンプトの構築、GPT モデルを使用した回答の生成が含まれます。
私たちは、情報源としてカリフォルニア州ドライバーズ ハンドブックを使用して、この方法を制御されたテスト シナリオに適用しました。
GPT-3 モデルは、50 問の運転知識テストのサンプル質問で 96% の合格点を達成しました。
対照的に、コンテキストがなければ、モデルの合格点は 82% に下がりました。
ただし、コンテキストのライブラリを提供しても、モデルは依然としていくつかの質問に正しく答えることができず、改善の余地があることが浮き彫りになっています。
この研究では、プロンプトの長さとコンテキスト形式がモデルのパフォーマンスに与える影響も調査しました。
全体として、この研究は、質問応答タスクにおける GPT モデルの限界と改善の可能性についての洞察を提供します。

要約(オリジナル)

Large language models such as Open AI’s Generative Pre-trained Transformer (GPT) models are proficient at answering questions, but their knowledge is confined to the information present in their training data. This limitation renders them ineffective when confronted with questions about recent developments or non-public documents. Our research proposes a method that enables GPT models to answer questions by employing context from an information source not previously included in their training data. The methodology includes preprocessing of contextual information, the embedding of contexts and queries, constructing prompt through the integration of context embeddings, and generating answers using GPT models. We applied this method in a controlled test scenario using the California Driver’s Handbook as the information source. The GPT-3 model achieved a 96% passing score on a set of 50 sample driving knowledge test questions. In contrast, without context, the model’s passing score fell to 82%. However, the model still fails to answer some questions correctly even with providing library of context, highlighting room for improvement. The research also examined the impact of prompt length and context format, on the model’s performance. Overall, the study provides insights into the limitations and potential improvements for GPT models in question-answering tasks.

arxiv情報

著者 Saba Rahimi,Tucker Balch,Manuela Veloso
発行日 2023-08-22 23:18:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク