Large-scale cloze evaluation reveals that token prediction tasks are neither lexically nor semantically aligned

要約

この研究では、いくつかの言語モデルにおける次のトークン予測レベルでの生成動作を、cloze タスクにおける人間の生成と比較することによって比較します。
通常、長時間にわたってトレーニングされた大規模なモデルは、人間の生産物のより優れた推定器である一方で、人間の応答の確率を確実に過小評価し、まれな応答を上位にランク付けし、上位の応答を下位にランク付けし、非常に明確な意味空間を生成することがわかりました。
まとめると、この研究は、LM 世代がクローゼタスクの代替またはモデルとして使用できないことを、扱いやすく解釈可能な領域で実証しています。

要約(オリジナル)

In this work we compare the generative behavior at the next token prediction level in several language models by comparing them to human productions in the cloze task. We find that while large models trained for longer are typically better estimators of human productions, but they reliably under-estimate the probabilities of human responses, over-rank rare responses, under-rank top responses, and produce highly distinct semantic spaces. Altogether, this work demonstrates in a tractable, interpretable domain that LM generations can not be used as replacements of or models of the cloze task.

arxiv情報

著者 Cassandra L. Jacobs,Loïc Grobol,Alvin Tsang
発行日 2024-10-28 17:45:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク