I2D2: Inductive Knowledge Distillation with NeuroLogic and Self-Imitation

要約

タイトル:NeuroLogicと自己模倣を用いた帰納的知識蒸留

要約:
– プレトレーニングされた言語モデルは拡大によって迅速に発展しているが、共通の常識的な能力にはまだ不十分である。
– この論文では、一見不可能なマッチングの可能性を探求している。つまり、常識能力がほとんどない小さな言語モデル(つまり、GPT-2)が、革新的な常識蒸留アルゴリズムによって強化される場合、桁違いに大きく、高品質なモデル(つまり、GPT-3)を競うことができるのか。
– 本研究では、一定レベルの共通の理解を養成する学習アルゴリズムを設計できるかどうかという知的問題を取り上げている。また、日常的な概念についての常識的な事実の文を生成する課題を中心に、常識知識の生成モデルを研究している。
– I2D2という新しい基盤的常識蒸留フレームワークを導入している。このモデルは、West et al.のシンボル的知識蒸留に従っているが、教師モデルとして極めて大規模なモデルに依存しない2つの革新を取り入れている。
– 実証的な結果は、革新的なアルゴリズムが有望な代替手段であることを示唆している。さらに、本研究は、今までで最も大きく、最高品質のジェネリックコーパスであるGen-A-Tomicを提供している。

要約(オリジナル)

Pre-trained language models, despite their rapid advancements powered by scale, still fall short of robust commonsense capabilities. And yet, scale appears to be the winning recipe; after all, the largest models seem to have acquired the largest amount of commonsense capabilities. Or is it? In this paper, we investigate the possibility of a seemingly impossible match: can smaller language models with dismal commonsense capabilities (i.e., GPT-2), ever win over models that are orders of magnitude larger and better (i.e., GPT-3), if the smaller models are powered with novel commonsense distillation algorithms? The key intellectual question we ask here is whether it is possible, if at all, to design a learning algorithm that does not benefit from scale, yet leads to a competitive level of commonsense acquisition. In this work, we study the generative models of commonsense knowledge, focusing on the task of generating generics, statements of commonsense facts about everyday concepts, e.g., birds can fly. We introduce a novel commonsense distillation framework, I2D2, that loosely follows the Symbolic Knowledge Distillation of West et al. but breaks the dependence on the extreme-scale models as the teacher model by two innovations: (1) the novel adaptation of NeuroLogic Decoding to enhance the generation quality of the weak, off-the-shelf language models, and (2) self-imitation learning to iteratively learn from the model’s own enhanced commonsense acquisition capabilities. Empirical results suggest that scale is not the only way, as novel algorithms can be a promising alternative. Moreover, our study leads to a new corpus of generics, Gen-A-Tomic, that is of the largest and highest quality available to date.

arxiv情報

著者 Chandra Bhagavatula,Jena D. Hwang,Doug Downey,Ronan Le Bras,Ximing Lu,Lianhui Qin,Keisuke Sakaguchi,Swabha Swayamdipta,Peter West,Yejin Choi
発行日 2023-05-03 18:20:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク