How Old is GPT?: The HumBEL Framework for Evaluating Language Models using Human Demographic Data


大規模な事前トレーニング済み言語モデル (LM) は NLP 全体でより多く使用されていますが、既存の評価プロトコルでは、会話型 AI アプリケーションで重要な考慮事項となり得る、LM 言語の使用が特定の人間の人口統計グループにどのように適合するかが考慮されていません。
このギャップを是正するために、LM 言語スキルをどのように測定し、人間の部分母集団と比較できるかを検討します。
当社は、専門分野の専門家 (つまり、臨床資格のある言語聴覚士) とともに評価を実施し、大規模な臨床評価に代わる自動化技術も提案します。
GPT-3.5 の LM 能力は課題に応じて大きく異なり、単語の意味の推論が必要な課題では典型的な 6 ~ 9 歳の能力を模倣し、同時に暗記に関しては典型的な 21 歳の能力を上回っていることがわかりました。
GPT-3.5 (InstructGPT) も社会的言語の使用に問題があり、テストされた語用論的スキルの 50% 未満しか示されていません。
私たちのフレームワークは、コード、データ、Python パッケージを通じて公開されます。


While large pre-trained language models (LMs) find greater use across NLP, existing evaluation protocols do not consider how LM language use aligns with particular human demographic groups, which can be an important consideration in conversational AI applications. To remedy this gap, we consider how LM language skills can be measured and compared to human sub-populations. We suggest clinical techniques from Speech Language Pathology, which has well-established norms for acquisition of language skills, organized by (human) age. We conduct evaluation with a domain expert (i.e., a clinically licensed speech language pathologist), and also propose automated techniques to substitute clinical evaluation at scale. We find LM capability varies widely depending on task with GPT-3.5 mimicking the ability of a typical 6-9 year old at tasks requiring inference about word meanings and simultaneously outperforming a typical 21 year old at memorization. GPT-3.5 (InstructGPT) also has trouble with social language use, exhibiting less than 50\% of the tested pragmatic skills. It shows errors in understanding particular word parts-of-speech and associative word relations, among other lexical features. Ultimately, findings reiterate the importance of considering demographic alignment and conversational goals when using these models as public-facing tools. Our framework will be publicly available via code, data, and a python package.


著者 Anthony Sicilia,Jennifer C. Gates,Malihe Alikhani
発行日 2023-05-24 02:55:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL パーマリンク