要約
これまでの研究では、バニラの事前トレーニング済み言語モデル (PLM) には知識集約型の NLP タスクを単独で処理する能力がないことが明らかになりました。
したがって、外部の知識を PLM に統合する試みがいくつか行われています。
ただし、有望な結果にもかかわらず、PLM は事前トレーニングされたパラメーターに豊富な知識をすでにエンコードしている可能性があるが、知識集約型タスクに適用するときにそれらを十分に活用できない可能性があることが経験的に観察されています。
この論文では、事前トレーニングされた言語モデルが、外部コーパスから情報を取得することなく、関連する潜在的な知識を利用できるようにする、知識反芻と呼ばれる新しいパラダイムを提案します。
「私が知っている限り」のようなプロンプトを PLM に追加するだけで、関連する潜在的な知識をレビューし、知識を統合するためにそれらをモデルに再度注入しようとします。
提案された知識反芻を RoBERTa、DeBERTa、GPT-3 などのさまざまな言語モデルに適用します。
6 つの常識的推論タスクと GLUE ベンチマークに関する実験結果は、私たちが提案したアプローチの有効性を示しており、PLM に保存されている知識をより適切に活用してパフォーマンスを向上できることが証明されています。
コードは https://github.com/zjunlp/knowledge-rumination で入手できます。
要約(オリジナル)
Previous studies have revealed that vanilla pre-trained language models (PLMs) lack the capacity to handle knowledge-intensive NLP tasks alone; thus, several works have attempted to integrate external knowledge into PLMs. However, despite the promising outcome, we empirically observe that PLMs may have already encoded rich knowledge in their pre-trained parameters but fail to fully utilize them when applying them to knowledge-intensive tasks. In this paper, we propose a new paradigm dubbed Knowledge Rumination to help the pre-trained language model utilize that related latent knowledge without retrieving it from the external corpus. By simply adding a prompt like ‘As far as I know’ to the PLMs, we try to review related latent knowledge and inject them back into the model for knowledge consolidation. We apply the proposed knowledge rumination to various language models, including RoBERTa, DeBERTa, and GPT-3. Experimental results on six commonsense reasoning tasks and GLUE benchmarks demonstrate the effectiveness of our proposed approach, which proves that the knowledge stored in PLMs can be better exploited to enhance performance. Code is available in https://github.com/zjunlp/knowledge-rumination.
arxiv情報
著者 | Yunzhi Yao,Peng Wang,Shengyu Mao,Chuanqi Tan,Fei Huang,Huajun Chen,Ningyu Zhang |
発行日 | 2023-10-11 10:51:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google