要約
言語モデル (LM) の言語能力、つまり言語現象の無意識の理解を評価するために設計された新しいベンチマークである Holmes を紹介します。
具体的には、分類子ベースのプローブを使用して、異なる言語現象 (品詞のタグ付けなど) に関する LM の内部表現を検査します。
その結果、私たちは、プロンプトベースの評価における指示に従うなど、LMの言語能力を他の認知能力から切り離すという最近の要求に応えています。
Holmes の構成では、構文、形態論、意味論、推論、談話現象を評価するための 270 を超える調査研究をレビューし、200 を超えるデータセットが含まれています。
50 を超える LM を分析すると、既知の傾向と一致して、言語能力がモデルのサイズと相関していることが明らかになりました。
ただし、驚くべきことに、モデル アーキテクチャと命令チューニングも、特に形態論と構文においてパフォーマンスに大きく影響します。
最後に、高いランキング精度を維持しながら計算負荷を軽減する合理化バージョンである FlashHolmes を提案します。
要約(オリジナル)
We introduce Holmes, a new benchmark designed to assess language models (LMs) linguistic competence – their unconscious understanding of linguistic phenomena. Specifically, we use classifier-based probing to examine LMs’ internal representations regarding distinct linguistic phenomena (e.g., part-of-speech tagging). As a result, we meet recent calls to disentangle LMs’ linguistic competence from other cognitive abilities, such as following instructions in prompting-based evaluations. Composing Holmes, we review over 270 probing studies and include more than 200 datasets to assess syntax, morphology, semantics, reasoning, and discourse phenomena. Analyzing over 50 LMs reveals that, aligned with known trends, their linguistic competence correlates with model size. However, surprisingly, model architecture and instruction tuning also significantly influence performance, particularly in morphology and syntax. Finally, we propose FlashHolmes, a streamlined version that reduces the computation load while maintaining high-ranking precision.
arxiv情報
著者 | Andreas Waldis,Yotam Perlitz,Leshem Choshen,Yufang Hou,Iryna Gurevych |
発行日 | 2024-10-22 14:08:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google