要約
比較知識(例:鋼鉄は発泡スチロールより強くて重い)は、私たちの世界知識の重要な要素ですが、先行文献ではまだ十分に研究されていません。
この論文では、GPT-4 のような超大規模言語モデルの機能の劇的な向上によって動機づけられ、知識を知識ベースに収集する取り組みを促進する、比較知識獲得のタスクを研究します。
このような比較知識の取得は、GPT-2 などのかなり小さくて弱い対応モデルと比較して、GPT-4 のようなモデルからはるかに簡単ですが、最も強力なモデルであってもエラーが免れないわけではありません。
そこで私たちは、さまざまなスケールのモデルが有効かつ多様な比較知識をどの程度生成できるのかを尋ねます。
GPT バリアントや Llama などの言語モデルから過剰生成された比較知識を抽出し、生成された知識を厳格にフィルタリングするための新しいフレームワークである NeuroComparatives を紹介します。
私たちのフレームワークは、日常的なオブジェクト間の比較知識を取得し、174 万のエンティティ ペアにわたる最大 880 万の比較のコーパスを生成します。これは、既存のリソースよりも 10 倍大きく、30% 多様です。
さらに、人間による評価では、NeuroComparatives が既存のリソースを上回るパフォーマンスを示しています (絶対的な改善率は最大 32%)。
また、3 つの下流タスクにおける蒸留された NeuroComparatives の有用性も示します。
私たちの結果は、より小さなモデルの神経記号的操作が、知識の蒸留のために極端なスケールの言語モデルを促すという現在主流の実践に補完的な利点を提供することを示しています。
要約(オリジナル)
Comparative knowledge (e.g., steel is stronger and heavier than styrofoam) is an essential component of our world knowledge, yet understudied in prior literature. In this paper, we study the task of comparative knowledge acquisition, motivated by the dramatic improvements in the capabilities of extreme-scale language models like GPT-4, which have fueled efforts towards harvesting their knowledge into knowledge bases. While acquisition of such comparative knowledge is much easier from models like GPT-4, compared to their considerably smaller and weaker counterparts such as GPT-2, not even the most powerful models are exempt from making errors. We thus ask: to what extent are models at different scales able to generate valid and diverse comparative knowledge? We introduce NeuroComparatives, a novel framework for comparative knowledge distillation overgenerated from language models such as GPT-variants and Llama, followed by stringent filtering of the generated knowledge. Our framework acquires comparative knowledge between everyday objects, producing a corpus of up to 8.8M comparisons over 1.74M entity pairs – 10X larger and 30% more diverse than existing resources. Moreover, human evaluations show that NeuroComparatives outperform existing resources (up to 32% absolute improvement). We also demonstrate the utility of our distilled NeuroComparatives on three downstream tasks. Our results show that neuro-symbolic manipulation of smaller models offer complementary benefits to the currently dominant practice of prompting extreme-scale language models for knowledge distillation.
arxiv情報
著者 | Phillip Howard,Junlin Wang,Vasudev Lal,Gadi Singer,Yejin Choi,Swabha Swayamdipta |
発行日 | 2023-11-15 17:34:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google