Holmes: Benchmark the Linguistic Competence of Language Models

要約

言語モデル (LM) の言語能力、つまり言語現象を把握する能力を評価するベンチマークである Holmes を紹介します。
以前のプロンプトベースの評価とは異なり、ホームズは、分類子ベースの調査を使用して、LM の内部表現を介して LM の言語能力を評価します。
そうすることで、特定の現象(単語の品詞など)をテキストの指示に従うなどの他の認知能力から切り離し、LM の言語能力を単独で評価するという最近の要求に応えます。
Holmes を構成するために、構文、形態論、意味論、推論、談話現象を評価するために 250 を超える調査研究をレビューし、200 を超えるデータセットを特集しています。
50 を超える LM を分析すると、既知の傾向と一致して、言語能力がモデルのサイズと相関していることが明らかになりました。
ただし、驚くべきことに、モデル アーキテクチャと命令チューニングも、特に形態論と構文においてパフォーマンスに大きく影響します。
最後に、高いランク付けの精度を維持しながら高い計算負荷を軽減するように設計された Holmes の合理化バージョンである FlashHolmes を提案します。

要約(オリジナル)

We introduce Holmes, a benchmark to assess the linguistic competence of language models (LMs) – their ability to grasp linguistic phenomena. Unlike prior prompting-based evaluations, Holmes assesses the linguistic competence of LMs via their internal representations using classifier-based probing. In doing so, we disentangle specific phenomena (e.g., part-of-speech of words) from other cognitive abilities, like following textual instructions, and meet recent calls to assess LMs’ linguistic competence in isolation. Composing Holmes, we review over 250 probing studies and feature more than 200 datasets to assess syntax, morphology, semantics, reasoning, and discourse phenomena. Analyzing over 50 LMs reveals that, aligned with known trends, their linguistic competence correlates with model size. However, surprisingly, model architecture and instruction tuning also significantly influence performance, particularly in morphology and syntax. Finally, we propose FlashHolmes, a streamlined version of Holmes designed to lower the high computation load while maintaining high-ranking precision.

arxiv情報

著者 Andreas Waldis,Yotam Perlitz,Leshem Choshen,Yufang Hou,Iryna Gurevych
発行日 2024-04-29 17:58:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク