要約
言語モデル (LM) と人間の能力をどのように比較すればよいでしょうか?
比較心理学からインスピレーションを得て、いくつかの課題を浮き彫りにしています。
特に、再帰的にネストされた文法構造の処理というケース スタディを検討します。
以前の研究では、LM はこれらの構造を人間のように確実に処理できないことが示唆されています。
ただし、人間には指示とトレーニングが提供され、LMはゼロショットで評価されました。
したがって、私は評価をより厳密に一致させます。
大規模な LM に単純なプロンプト (人間のトレーニングよりも大幅に少ないコンテンツ) を提供することで、LM は一貫して人間の結果を上回り、人間でテストされたよりも深くネストされた条件を推定することさえできます。
さらに、以前の人間のデータを再分析すると、最初は人間が困難な構造で偶然を超えて実行できない可能性があることが示唆されます。
したがって、大規模な LM は、再帰的にネストされた文法構造を、人間と同じくらい確実に処理することができます。
このケーススタディでは、評価の不一致が言語モデルと人間の比較を混乱させる可能性があることを強調しています。
したがって、私は人間とモデルの能力を比較するというより広範な課題を振り返り、認知モデルと基礎モデルの評価の重要な違いを強調します。
要約(オリジナル)
How should we compare the capabilities of language models (LMs) and humans? I draw inspiration from comparative psychology to highlight some challenges. In particular, I consider a case study: processing of recursively nested grammatical structures. Prior work suggests that LMs cannot handle these structures as reliably as humans can. However, the humans were provided with instructions and training, while the LMs were evaluated zero-shot. I therefore match the evaluation more closely. Providing large LMs with a simple prompt — substantially less content than the human training — allows the LMs to consistently outperform the human results, and even to extrapolate to more deeply nested conditions than were tested with humans. Further, reanalyzing the prior human data suggests that the humans may not perform above chance at the difficult structures initially. Thus, large LMs may indeed process recursively nested grammatical structures as reliably as humans. This case study highlights how discrepancies in the evaluation can confound comparisons of language models and humans. I therefore reflect on the broader challenge of comparing human and model capabilities, and highlight an important difference between evaluating cognitive models and foundation models.
arxiv情報
著者 | Andrew Kyle Lampinen |
発行日 | 2023-02-16 14:58:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google