要約
GPT-3.5 と GPT-4 は、最も広く使用されている 2 つの大規模言語モデル (LLM) サービスです。
ただし、これらのモデルが時間の経過とともにいつどのように更新されるかは不透明です。
ここでは、GPT-3.5 と GPT-4 の 2023 年 3 月と 2023 年 6 月のバージョンを、いくつかの多様なタスクに関して評価します: 1) 数学の問題、2) デリケートな/危険な質問、3) 世論調査、4) マルチホップの知識集約的な質問
、5) コードの生成、6) 米国医師免許試験、7) 視覚的推論。
GPT-3.5 と GPT-4 の両方のパフォーマンスと動作は、時間の経過とともに大きく変化する可能性があることがわかりました。
たとえば、GPT-4 (2023 年 3 月) は、素数と合成数の識別には妥当でしたが (精度 84%)、GPT-4 (2023 年 6 月) は、これらの同じ質問では不十分でした (精度 51%)。
これは、思考連鎖のプロンプトに従う GPT-4 の快適性が低下していることによって部分的に説明されます。
興味深いことに、このタスクでは GPT-3.5 は 3 月よりも 6 月の方がはるかに優れていました。
GPT-4は、6月には3月に比べてデリケートな質問や世論調査の質問に答える意欲が低下した。
GPT-4 は 6 月のマルチホップ質問で 3 月よりも優れたパフォーマンスを示しましたが、GPT-3.5 のパフォーマンスはこのタスクで低下しました。
GPT-4 と GPT-3.5 の両方で、6 月は 3 月よりもコード生成時のフォーマット ミスが多かった。
私たちは、ユーザーの指示に従う GPT-4 の能力が時間の経過とともに低下しているという証拠を提供します。これが、多くの動作のドリフトの背後にある共通の要因の 1 つです。
全体として、私たちの調査結果は、「同じ」LLM サービスの動作が比較的短期間で大幅に変化する可能性があることを示しており、LLM を継続的に監視する必要性を強調しています。
要約(オリジナル)
GPT-3.5 and GPT-4 are the two most widely used large language model (LLM) services. However, when and how these models are updated over time is opaque. Here, we evaluate the March 2023 and June 2023 versions of GPT-3.5 and GPT-4 on several diverse tasks: 1) math problems, 2) sensitive/dangerous questions, 3) opinion surveys, 4) multi-hop knowledge-intensive questions, 5) generating code, 6) US Medical License tests, and 7) visual reasoning. We find that the performance and behavior of both GPT-3.5 and GPT-4 can vary greatly over time. For example, GPT-4 (March 2023) was reasonable at identifying prime vs. composite numbers (84% accuracy) but GPT-4 (June 2023) was poor on these same questions (51% accuracy). This is partly explained by a drop in GPT-4’s amenity to follow chain-of-thought prompting. Interestingly, GPT-3.5 was much better in June than in March in this task. GPT-4 became less willing to answer sensitive questions and opinion survey questions in June than in March. GPT-4 performed better at multi-hop questions in June than in March, while GPT-3.5’s performance dropped on this task. Both GPT-4 and GPT-3.5 had more formatting mistakes in code generation in June than in March. We provide evidence that GPT-4’s ability to follow user instructions has decreased over time, which is one common factor behind the many behavior drifts. Overall, our findings show that the behavior of the ‘same’ LLM service can change substantially in a relatively short amount of time, highlighting the need for continuous monitoring of LLMs.
arxiv情報
著者 | Lingjiao Chen,Matei Zaharia,James Zou |
発行日 | 2023-10-31 16:13:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google