要約
現在の言語モデルは、質問応答やコード作成などの自然言語タスクにおいて人間を下回る能力を備えていると考えられています。
ただし、言語モデルはこれらのタスクで適切に実行するようにトレーニングされておらず、トークン化されたテキスト内の以前のトークンが与えられた場合に、次のトークンを正確に予測するようにトレーニングされています。
次のトークンの予測において、言語モデルが人間よりも優れているのか劣っているのかは明らかではありません。
この質問に答えるために、私たちはこの面で人間と言語モデルを直接比較する 2 つの異なる実験を実行しました。1 つはトップ 1 の精度を測定し、もう 1 つは複雑さを測定しました。
どちらの実験でも、人間は次のトークンの予測において GPT3-Ada のような比較的小規模な言語モデルよりも一貫して \emph{悪い}ことが分かりました。
要約(オリジナル)
Current language models are considered to have sub-human capabilities at natural language tasks like question-answering or writing code. However, language models are not trained to perform well at these tasks, they are trained to accurately predict the next token given previous tokes in tokenized text. It is not clear whether language models are better or worse than humans at next token prediction. To try to answer this question, we performed two distinct experiments to directly compare humans and language models on this front: one measuring top-1 accuracy and the other measuring perplexity. In both experiments, we find humans to be consistently \emph{worse} than even relatively small language models like GPT3-Ada at next-token prediction.
arxiv情報
著者 | Buck Shlegeris,Fabien Roger,Lawrence Chan,Euan McLean |
発行日 | 2024-07-15 15:04:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google