HumBEL: A Human-in-the-Loop Approach for Evaluating Demographic Factors of Language Models in Human-Machine Conversations


年齢や性別のような人口統計学的要因は、人々の話し方、特に機械に対する話し方を変化させるが、事前に訓練された大規模な言語モデル(LM)が、このような変化にどのように適応できるかについては、ほとんど調査されていない。このギャップを改善するために、我々はLMの言語スキルにおける人口統計学的要因をどのように測定し、ターゲット層との適合性を判断できるかを考察する。我々は、人間の言語スキルの獲得に関する規範を持つSpeech Language Pathologyの臨床技術を提案する。また、臨床的評価を補完する自動化技術も提案する。経験的に、我々は年齢に注目し、タスクによってLM能力が大きく異なることを発見した:GPT-3.5は推論を必要とするタスクにおいて6歳から15歳までの人間の能力を模倣し、同時に暗記においては21歳の典型的な年齢を凌駕する。また、GPT-3.5は社会的な言語使用にも問題があり、テストされた語用論的スキルの50%未満しか示さない。この結果から、LM を一般向けのツールとして使用する際には、人口統計学的な整合性と会話のゴールを考慮することが重要であることが確認された。コード、データ、パッケージが入手可能である。


While demographic factors like age and gender change the way people talk, and in particular, the way people talk to machines, there is little investigation into how large pre-trained language models (LMs) can adapt to these changes. To remedy this gap, we consider how demographic factors in LM language skills can be measured to determine compatibility with a target demographic. We suggest clinical techniques from Speech Language Pathology, which has norms for acquisition of language skills in humans. We conduct evaluation with a domain expert (i.e., a clinically licensed speech language pathologist), and also propose automated techniques to complement clinical evaluation at scale. Empirically, we focus on age, finding LM capability varies widely depending on task: GPT-3.5 mimics the ability of humans ranging from age 6-15 at tasks requiring inference, and simultaneously, outperforms a typical 21 year old at memorization. GPT-3.5 also has trouble with social language use, exhibiting less than 50% of the tested pragmatic skills. Findings affirm the importance of considering demographic alignment and conversational goals when using LMs as public-facing tools. Code, data, and a package will be available.


著者 Anthony Sicilia,Jennifer C. Gates,Malihe Alikhani
発行日 2024-02-05 17:28:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク