要約
最近では、自然言語理解 (NLU) を評価する一般的な方法は、自然言語推論 (NLI) タスクを実行するモデルの能力を考慮することでした。
この論文では、LLM 評価にはめったに使用されない NLI タスクが、依然として LLM 評価に有益であるかどうかを調査します。
異なるスケールの 6 つのモデルにわたる 5 つの異なる NLI ベンチマークに焦点を当て、異なるサイズと品質のモデルを識別できるかどうか、およびトレーニング中に精度がどのように向上するかを調査します。
さらに、記述があいまいまたは曖昧な場合に、モデルのソフトマックス分布が人間の分布とどの程度一致するかを調査します。
全体として、私たちの結果は NLI タスクに対して肯定的なイメージを示しています。NLI タスクはトレーニングのさまざまな段階でモデル間をうまく区別でき、しかも (すべてが) 飽和していないことが分かりました。
さらに、モデル分布と人間のラベル分布の類似性は規模が大きくなるにつれて増加しますが、それでも人間の 2 つの集団間の類似性よりもはるかに高く、検討する上で興味深い統計となる可能性があることがわかりました。
要約(オリジナル)
In the recent past, a popular way of evaluating natural language understanding (NLU), was to consider a model’s ability to perform natural language inference (NLI) tasks. In this paper, we investigate if NLI tasks, that are rarely used for LLM evaluation, can still be informative for evaluating LLMs. Focusing on five different NLI benchmarks across six models of different scales, we investigate if they are able to discriminate models of different size and quality and how their accuracies develop during training. Furthermore, we investigate the extent to which the softmax distributions of models align with human distributions in cases where statements are ambiguous or vague. Overall, our results paint a positive picture for the NLI tasks: we find that they are able to discriminate well between models at various stages of training, yet are not (all) saturated. Furthermore, we find that while the similarity of model distributions with human label distributions increases with scale, it is still much higher than the similarity between two populations of humans, making it a potentially interesting statistic to consider.
arxiv情報
著者 | Lovish Madaan,David Esiobu,Pontus Stenetorp,Barbara Plank,Dieuwke Hupkes |
発行日 | 2024-11-21 13:09:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google