How Old is GPT?: The HumBEL Framework for Evaluating Language Models using Human Demographic Data

要約

大規模な事前トレーニング済み言語モデル (LM) は NLP 全体でより多く使用されていますが、既存の評価プロトコルでは、会話型 AI アプリケーションで重要な考慮事項となり得る、LM 言語の使用が特定の人間の人口統計グループにどのように適合するかが考慮されていません。
このギャップを是正するために、LM 言語スキルをどのように測定し、人間の部分母集団と比較できるかを検討します。
私たちは、言語能力の獲得に関する十分に確立された規範を(人間の)年齢別に整理した言語病理学の臨床技術を提案します。
当社は、専門分野の専門家 (つまり、臨床資格のある言語聴覚士) とともに評価を実施し、大規模な臨床評価に代わる自動化技術も提案します。
GPT-3.5 の LM 能力は課題に応じて大きく異なり、単語の意味の推論が必要な課題では典型的な 6 ~ 9 歳の能力を模倣し、同時に暗記に関しては典型的な 21 歳の能力を上回っていることがわかりました。
GPT-3.5 (InstructGPT) も社会的言語の使用に問題があり、テストされた語用論的スキルの 50% 未満しか示されていません。
これは、語彙的特徴の中でも特に、特定の単語の品詞や連想単語の関係を理解する際のエラーを示します。
最終的に、調査結果は、これらのモデルを公開ツールとして使用する場合、人口動態の調整と会話の目標を考慮することの重要性を繰り返し示しています。
私たちのフレームワークは、コード、データ、Python パッケージを通じて公開されます。

要約(オリジナル)

While large pre-trained language models (LMs) find greater use across NLP, existing evaluation protocols do not consider how LM language use aligns with particular human demographic groups, which can be an important consideration in conversational AI applications. To remedy this gap, we consider how LM language skills can be measured and compared to human sub-populations. We suggest clinical techniques from Speech Language Pathology, which has well-established norms for acquisition of language skills, organized by (human) age. We conduct evaluation with a domain expert (i.e., a clinically licensed speech language pathologist), and also propose automated techniques to substitute clinical evaluation at scale. We find LM capability varies widely depending on task with GPT-3.5 mimicking the ability of a typical 6-9 year old at tasks requiring inference about word meanings and simultaneously outperforming a typical 21 year old at memorization. GPT-3.5 (InstructGPT) also has trouble with social language use, exhibiting less than 50\% of the tested pragmatic skills. It shows errors in understanding particular word parts-of-speech and associative word relations, among other lexical features. Ultimately, findings reiterate the importance of considering demographic alignment and conversational goals when using these models as public-facing tools. Our framework will be publicly available via code, data, and a python package.

arxiv情報

著者 Anthony Sicilia,Jennifer C. Gates,Malihe Alikhani
発行日 2023-05-24 02:55:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク