要約
中小の生成言語モデルは、注目を集めています。
それらのサイズと可用性により、行動レベルと表現レベルで分析されることに適しているため、これらのレベルがどのように相互作用するかを調査できます。
単語の三重項タスクでの人間の類似性の判断と表現および行動の整合について、32の公的に利用可能な言語モデルを評価します。
これは、一般的なペアワイズ比較を超えて言語でセマンティック関連を調査するための新しい評価設定を提供します。
(1)小さな言語モデルの表現でさえ、人間レベルのアラインメントを達成できることがわかります。(2)命令チューニングされたモデルバリアントは、大幅に増加する一致を示すことができます。
要約(オリジナル)
Small and mid-sized generative language models have gained increasing attention. Their size and availability make them amenable to being analyzed at a behavioral as well as a representational level, allowing investigations of how these levels interact. We evaluate 32 publicly available language models for their representational and behavioral alignment with human similarity judgments on a word triplet task. This provides a novel evaluation setting to probe semantic associations in language beyond common pairwise comparisons. We find that (1) even the representations of small language models can achieve human-level alignment, (2) instruction-tuned model variants can exhibit substantially increased agreement, (3) the pattern of alignment across layers is highly model dependent, and (4) alignment based on models’ behavioral responses is highly dependent on model size, matching their representational alignment only for the largest evaluated models.
arxiv情報
著者 | Lorenz Linhardt,Tom Neuhäuser,Lenka Tětková,Oliver Eberle |
発行日 | 2025-04-10 17:59:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google