要約
言語モデルは膨大な量の事実の知識を保存できますが、この知識を論理的推論に使用する能力には疑問が残ります。
この論文では、推論中に保存された知識を操作する言語モデルの機能を調査します。
私たちは 4 つの操作タイプに焦点を当てます: 検索 (例: 「人 A の属性 X は何ですか」)、分類 (例: 「A の属性 X は偶数ですか、奇数ですか?」)、比較 (例: 「属性 X の A は B より大きいですか?」)
?’) および逆検索 (例: 「どの人の属性 X が T に等しいか?」) GPT2/3/4 のような事前トレーニング済み言語モデルは知識検索には優れていますが、思考の連鎖 (
CoT) は、トレーニングと推論の両方で使用されます。
また、プロンプトに関係なく、知識の逆検索でもパフォーマンスが悪くなります。
私たちの主な貢献は、これらの固有の弱点を確認する制御された実験のための合成データセットです。言語モデルは、たとえそのような知識がモデル内に完全に保存され、完全に抽出可能であっても、また適切な詳細な指示にもかかわらず、事前トレーニング データからの知識を効率的に操作することはできません。
チューニング。
要約(オリジナル)
Language models can store vast amounts of factual knowledge, but their ability to use this knowledge for logical reasoning remains questionable. This paper explores a language model’s ability to manipulate its stored knowledge during inference. We focus on four manipulation types: retrieval (e.g., ‘What is person A’s attribute X’), classification (e.g., ‘Is A’s attribute X even or odd?’), comparison (e.g., ‘Is A greater than B in attribute X?’) and inverse search (e.g., ‘Which person’s attribute X equals T?’) We observe that pre-trained language models like GPT2/3/4 excel in knowledge retrieval but struggle with simple classification or comparison tasks unless Chain of Thoughts (CoTs) are employed during both training and inference. They also perform poorly in inverse knowledge search, irrespective of the prompts. Our primary contribution is a synthetic dataset for a controlled experiment that confirms these inherent weaknesses: a language model cannot efficiently manipulate knowledge from pre-training data, even when such knowledge is perfectly stored and fully extractable in the models, and despite adequate instruct fine-tuning.
arxiv情報
著者 | Zeyuan Allen-Zhu,Yuanzhi Li |
発行日 | 2023-09-25 17:50:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google