How to Measure the Intelligence of Large Language Models?

要約

ChatGPT およびその他の大規模言語モデル (LLM) のリリースにより、現在および将来のモデルのインテリジェンス、可能性、およびリスクに関する議論が大きな注目を集めています。
この議論には、いわゆる「スーパーヒューマン」AI、つまり人間よりも桁違いに賢い AI システムの差し迫った台頭に関する多くの議論が交わされたシナリオが含まれていました。
アラン・チューリングの精神に則れば、現在の最先端の言語モデルがすでに彼の有名なテストに合格していることは疑いの余地がありません。
さらに、現在のモデルはいくつかのベンチマーク テストで人間よりも優れたパフォーマンスを示しているため、一般に入手可能な LLM はすでに日常生活、産業、科学をつなぐ多用途のコンパニオンとなっています。
LLM は、その優れた機能にもかかわらず、人間にとっては些細なことだと思われるタスクでは完全に失敗することがあります。
場合によっては、LLM の信頼性がさらにわかりにくくなり、評価が困難になります。
学術界の例を挙げると、言語モデルは、ほんの少しの入力だけで、特定のトピックについて説得力のある研究論文を書くことができます。
しかし、事実の一貫性の点で信頼性が欠如していることや、AI が生成した本文に持続的な幻覚が存在することにより、多くの科学雑誌で AI ベースのコンテンツにさまざまな制限が生じています。
これらの観察を考慮すると、人間の知能に適用されるのと同じ指標が計算手法にも適用できるかどうかという疑問が生じ、広範囲に議論されてきました。
実際、指標の選択が潜在的な知能の出現の評価に劇的な影響を与えることがすでに示されています。
ここでは、LLM の知能はタスク固有の統計指標によって評価されるだけでなく、定性的および定量的尺度の観点から個別に評価されるべきであると主張します。

要約(オリジナル)

With the release of ChatGPT and other large language models (LLMs) the discussion about the intelligence, possibilities, and risks, of current and future models have seen large attention. This discussion included much debated scenarios about the imminent rise of so-called ‘super-human’ AI, i.e., AI systems that are orders of magnitude smarter than humans. In the spirit of Alan Turing, there is no doubt that current state-of-the-art language models already pass his famous test. Moreover, current models outperform humans in several benchmark tests, so that publicly available LLMs have already become versatile companions that connect everyday life, industry and science. Despite their impressive capabilities, LLMs sometimes fail completely at tasks that are thought to be trivial for humans. In other cases, the trustworthiness of LLMs becomes much more elusive and difficult to evaluate. Taking the example of academia, language models are capable of writing convincing research articles on a given topic with only little input. Yet, the lack of trustworthiness in terms of factual consistency or the existence of persistent hallucinations in AI-generated text bodies has led to a range of restrictions for AI-based content in many scientific journals. In view of these observations, the question arises as to whether the same metrics that apply to human intelligence can also be applied to computational methods and has been discussed extensively. In fact, the choice of metrics has already been shown to dramatically influence assessments on potential intelligence emergence. Here, we argue that the intelligence of LLMs should not only be assessed by task-specific statistical metrics, but separately in terms of qualitative and quantitative measures.

arxiv情報

著者 Nils Körber,Silvan Wehrli,Christopher Irrgang
発行日 2024-07-30 13:53:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク