Testing the limits of natural language models for predicting human language judgments

要約

ニューラル ネットワーク言語モデルは、人間が言語を処理する方法に関する計算上の仮説として機能します。
私たちは、物議を醸す文のペアという新しい実験的アプローチを使用して、多様な言語モデルのモデルと人間の一貫性を比較しました。
物議を醸している文のペアごとに、どちらの文が自然文に出現する可能性が高いかについて 2 つの言語モデルの意見が一致していません。
9 つの言語モデル (N グラム、リカレント ニューラル ネットワーク、トランスフォーマー モデルを含む) を考慮して、コーパスから文を選択するか、物議を醸す可能性の高い文のペアを合成的に最適化することによって、そのような物議を醸す文のペアを何百も作成しました。
次に、人間の被験者は、各ペアについて 2 つの文のどちらがより可能性が高いかを示す判断を提供しました。
物議を醸した文のペアは、モデルの失敗を明らかにし、人間の判断と最も一致するモデルを特定するのに非常に効果的であることが証明されました。
テストされた最も人間と一致するモデルは GPT-2 でしたが、実験では人間の知覚との整合性に関する重大な欠点も明らかになりました。

要約(オリジナル)

Neural network language models can serve as computational hypotheses about how humans process language. We compared the model-human consistency of diverse language models using a novel experimental approach: controversial sentence pairs. For each controversial sentence pair, two language models disagree about which sentence is more likely to occur in natural text. Considering nine language models (including n-gram, recurrent neural networks, and transformer models), we created hundreds of such controversial sentence pairs by either selecting sentences from a corpus or synthetically optimizing sentence pairs to be highly controversial. Human subjects then provided judgments indicating for each pair which of the two sentences is more likely. Controversial sentence pairs proved highly effective at revealing model failures and identifying models that aligned most closely with human judgments. The most human-consistent model tested was GPT-2, although experiments also revealed significant shortcomings of its alignment with human perception.

arxiv情報

著者 Tal Golan,Matthew Siegelman,Nikolaus Kriegeskorte,Christopher Baldassano
発行日 2023-09-12 15:01:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, q-bio.NC パーマリンク