Does Deep Learning Learn to Abstract? A Systematic Probing Framework


このホワイト ペーパーでは、伝達性の観点からディープ ラーニング モデルの抽象化機能を調査するための体系的なプロービング フレームワークを紹介します。
このフレームワークに基づいて一連の制御された実験が実施され、T5 と GPT2 という 2 つのプローブされた事前トレーニング済み言語モデル (PLM) が抽象化機能を備えているという強力な証拠が提供されます。
(2) 学習した抽象的な概念は、モデル全体に​​均等に分散されるのではなく、いくつかの中間層のアテンション ヘッドに集められます。
(3) プローブされた抽象化機能は、概念の変更に対して堅牢性を示し、高レベル/ターゲット側の変更よりも低レベル/ソース側の変更に対してより堅牢です。
(4) 一般的な事前トレーニングは抽象化機能の出現に不可欠であり、PLM はより大きなモデル サイズとデータ スケールでより優れた抽象化を示します。


Abstraction is a desirable capability for deep learning models, which means to induce abstract concepts from concrete instances and flexibly apply them beyond the learning context. At the same time, there is a lack of clear understanding about both the presence and further characteristics of this capability in deep learning models. In this paper, we introduce a systematic probing framework to explore the abstraction capability of deep learning models from a transferability perspective. A set of controlled experiments are conducted based on this framework, providing strong evidence that two probed pre-trained language models (PLMs), T5 and GPT2, have the abstraction capability. We also conduct in-depth analysis, thus shedding further light: (1) the whole training phase exhibits a ‘memorize-then-abstract’ two-stage process; (2) the learned abstract concepts are gathered in a few middle-layer attention heads, rather than being evenly distributed throughout the model; (3) the probed abstraction capabilities exhibit robustness against concept mutations, and are more robust to low-level/source-side mutations than high-level/target-side ones; (4) generic pre-training is critical to the emergence of abstraction capability, and PLMs exhibit better abstraction with larger model sizes and data scales.


著者 Shengnan An,Zeqi Lin,Bei Chen,Qiang Fu,Nanning Zheng,Jian-Guang Lou
発行日 2023-02-23 12:50:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.LG パーマリンク