要約
大規模言語モデル (LLM) は、幅広いタスクの解決において目覚ましい成果を上げています。
LLM は、命令の微調整によって強化され、ゼロショット設定でも一般化することが示されています。
ただし、LLM が人間の不一致分布と密接に一致するかどうかは、特に自然言語推論 (NLI) の範囲内では十分に研究されていません。
この論文では、多項分布を推定するための 2 つの異なる手法、モンテカルロ推定 (MCE) と対数確率推定 (LPE) を使用して、LLM 分布のパフォーマンスと人間との整合性を評価します。
その結果、LLM は NLI タスクを解決する能力が限られており、同時に人間の意見の相違の分布を捉えることができないことがわかりました。
人間の不一致レベルが高いデータ サンプルでは、推論と人間の位置合わせのパフォーマンスがさらに低下し、自然言語理解 (NLU) 能力と、より大きな人間集団に対する代表性についての懸念が生じます。
実験のソース コードは https://github.com/xfactlab/emnlp2023-LLM-Disagreement で入手できます。
要約(オリジナル)
Large language models (LLMs) have shown impressive achievements in solving a broad range of tasks. Augmented by instruction fine-tuning, LLMs have also been shown to generalize in zero-shot settings as well. However, whether LLMs closely align with the human disagreement distribution has not been well-studied, especially within the scope of natural language inference (NLI). In this paper, we evaluate the performance and alignment of LLM distribution with humans using two different techniques to estimate the multinomial distribution: Monte Carlo Estimation (MCE) and Log Probability Estimation (LPE). As a result, we show LLMs exhibit limited ability in solving NLI tasks and simultaneously fail to capture human disagreement distribution. The inference and human alignment performances plunge even further on data samples with high human disagreement levels, raising concerns about their natural language understanding (NLU) ability and their representativeness to a larger human population. The source code for the experiments is available at https://github.com/xfactlab/emnlp2023-LLM-Disagreement
arxiv情報
著者 | Noah Lee,Na Min An,James Thorne |
発行日 | 2023-10-27 11:25:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google