Decoding Intelligence: A Framework for Certifying Knowledge Comprehension in LLMs

要約

知識理解能力は人間の知性の重要な側面です。
大規模言語モデル (LLM) は超人的なエージェントとして想定されているため、知識理解に熟達していることが重要です。
しかし、既存のベンチマーク研究は、LLM の知識理解能力について、一貫性があり、一般化可能で、正式な保証を提供していません。
この研究では、形式的な確率的保証を備えた LLM の知識理解を証明する最初のフレームワークを提案します。
私たちの証明書は定量的です。証明書は、ターゲット LLM が分布からサンプリングされた知識理解プロンプトに対して正しい答えを与える確率に関する、信頼性の高い厳しい制限で構成されています。
私たちは、ナレッジ グラフを活用して知識理解プロンプトの分布を正確に表す新しい仕様を設計し、認証します。
当社は、Wikidata5m ナレッジ グラフの仕様について SOTA LLM を認定します。
モデルのサイズを拡大すると、知識理解能力が大幅に向上することがわかりました。

要約(オリジナル)

Knowledge comprehension capability is an important aspect of human intelligence. As Large Language Models (LLMs) are being envisioned as superhuman agents, it is crucial for them to be proficient at knowledge comprehension. However, existing benchmarking studies do not provide consistent, generalizable, and formal guarantees on the knowledge comprehension capabilities of LLMs. In this work, we propose the first framework to certify knowledge comprehension in LLMs with formal probabilistic guarantees. Our certificates are quantitative — they consist of high-confidence, tight bounds on the probability that a target LLM gives the correct answer on any knowledge comprehension prompt sampled from a distribution. We design and certify novel specifications that precisely represent distributions of knowledge comprehension prompts leveraging knowledge graphs. We certify SOTA LLMs for specifications over the Wikidata5m knowledge graph. We find that the knowledge comprehension capability improves significantly with scaling the size of the models.

arxiv情報

著者 Isha Chaudhary,Vedaant V. Jain,Gagandeep Singh
発行日 2024-10-07 15:01:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク