Question: How do Large Language Models perform on the Question Answering tasks? Answer:

要約

大規模言語モデル (LLM) は、少数ショットまたはゼロショット プロンプト手法を使用することにより、これらのタスクのトレーニングを明示的に必要とせずに、さまざまな NLP タスクに対して有望な結果を示しています。
一般的な NLP タスクは質問応答 (QA) です。
この研究では、特に単一推論プロンプト手法を使用した場合の、小規模な微調整モデルと、スタンフォード質問応答データセット 2.0 (SQuAD2) 上のすぐに使用できる命令追従 LLM との間の包括的なパフォーマンス比較を提案します。
データセットには答えられない質問が含まれているため、以前の研究では二重推論方法が使用されていました。
私たちは、二重推論を必要とせずに同じ能力を引き出し、計算時間とリソースを節約することを目的としたプロンプト スタイルを提案します。
さらに、どちらのモデルも微調整せずに、類似しているが異なる QA データセットでパフォーマンスを比較することで、一般化機能を調査します。たとえば、ウィキペディアとニュースを交換するなど、コンテキストや質問が元のトレーニング配布と異なる可能性がある現実世界の使用をエミュレートします。
記事。
私たちの結果は、より小規模で微調整されたモデルが、微調整されたタスクにおいて現在の最先端 (SOTA) LLM よりも優れたパフォーマンスを発揮することを示していますが、最近の SOTA モデルは配布外テストでこのギャップを埋め、さらには
テストされた 5 つの QA データセットのうち 3 つで、微調整されたモデルよりも優れたパフォーマンスを示しました。

要約(オリジナル)

Large Language Models (LLMs) have been showing promising results for various NLP-tasks without the explicit need to be trained for these tasks by using few-shot or zero-shot prompting techniques. A common NLP-task is question-answering (QA). In this study, we propose a comprehensive performance comparison between smaller fine-tuned models and out-of-the-box instruction-following LLMs on the Stanford Question Answering Dataset 2.0 (SQuAD2), specifically when using a single-inference prompting technique. Since the dataset contains unanswerable questions, previous work used a double inference method. We propose a prompting style which aims to elicit the same ability without the need for double inference, saving compute time and resources. Furthermore, we investigate their generalization capabilities by comparing their performance on similar but different QA datasets, without fine-tuning neither model, emulating real-world uses where the context and questions asked may differ from the original training distribution, for example swapping Wikipedia for news articles. Our results show that smaller, fine-tuned models outperform current State-Of-The-Art (SOTA) LLMs on the fine-tuned task, but recent SOTA models are able to close this gap on the out-of-distribution test and even outperform the fine-tuned models on 3 of the 5 tested QA datasets.

arxiv情報

著者 Kevin Fischer,Darren Fürst,Sebastian Steindl,Jakob Lindner,Ulrich Schäfer
発行日 2024-12-17 13:19:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク