要約
大規模言語モデル (LLM) は、事実の知識を理解して推論する能力の利点として、さまざまな自然言語処理タスクにおいて目覚ましい進歩を遂げてきました。
ただし、大量の事実知識は構造化データに保存されており、事前トレーニングに使用される非構造化テキストとは異なる独自の特性を備えています。
この違いにより、知覚できない推論パラメータの偏差が生じる可能性があり、LLM が構造化データを効果的に利用して推論して事実の知識を正確に推論する際に課題が生じます。
この目的を達成するために、事実知識を推論する際の LLM の構造的推論能力を評価するための StructFact というベンチマークを提案します。
StructFact は、さまざまなタスク、ドメイン、タイムライン、地域を網羅する 8,340 の事実に基づく質問で構成されています。
このベンチマークにより、構造的事実の固有の特性から得られる 5 つの事実タスクにわたる LLM の機能を調査することができます。
さまざまなトレーニング戦略を使用した一連の LLM に対する広範な実験により、構造化データから事実の知識を推論する際の現在の LLM の限界が明らかになりました。
このベンチマークは、知識を必要とするタスクの構造化データを使用した推論における LLM の長所と短所をナビゲートし、関連する現実世界のアプリケーションの進歩を促進するための羅針盤として提示されます。
https://github.com/EganGu/StructFact でコードを見つけてください。
要約(オリジナル)
Large language models (LLMs) have made remarkable progress in various natural language processing tasks as a benefit of their capability to comprehend and reason with factual knowledge. However, a significant amount of factual knowledge is stored in structured data, which possesses unique characteristics that differ from the unstructured texts used for pretraining. This difference can introduce imperceptible inference parameter deviations, posing challenges for LLMs in effectively utilizing and reasoning with structured data to accurately infer factual knowledge. To this end, we propose a benchmark named StructFact, to evaluate the structural reasoning capabilities of LLMs in inferring factual knowledge. StructFact comprises 8,340 factual questions encompassing various tasks, domains, timelines, and regions. This benchmark allows us to investigate the capability of LLMs across five factual tasks derived from the unique characteristics of structural facts. Extensive experiments on a set of LLMs with different training strategies reveal the limitations of current LLMs in inferring factual knowledge from structured data. We present this benchmark as a compass to navigate the strengths and weaknesses of LLMs in reasoning with structured data for knowledge-sensitive tasks, and to encourage advancements in related real-world applications. Please find our code at https://github.com/EganGu/StructFact.
arxiv情報
著者 | Sirui Huang,Yanggan Gu,Xuming Hu,Zhonghao Li,Qing Li,Guandong Xu |
発行日 | 2024-08-22 08:05:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google