Does Deep Learning Learn to Abstract? A Systematic Probing Framework

要約

抽象化は、深層学習モデルにとって望ましい機能です。これは、具体的なインスタンスから抽象的な概念を誘導し、学習コンテキストを超えて柔軟に適用することを意味します。
同時に、深層学習モデルにおけるこの機能の存在とさらなる特性の両方について明確な理解が不足しています。
このホワイト ペーパーでは、伝達性の観点からディープ ラーニング モデルの抽象化機能を調査するための体系的なプロービング フレームワークを紹介します。
このフレームワークに基づいて一連の制御された実験が実施され、T5 と GPT2 という 2 つのプローブされた事前トレーニング済み言語モデル (PLM) が抽象化機能を備えているという強力な証拠が提供されます。
また、詳細な分析を行い、さらに光を当てます。(1)トレーニングフェーズ全体は、「記憶してから抽象化する」2段階のプロセスを示します。
(2) 学習した抽象的な概念は、モデル全体に​​均等に分散されるのではなく、いくつかの中間層のアテンション ヘッドに集められます。
(3) プローブされた抽象化機能は、概念の変更に対して堅牢性を示し、高レベル/ターゲット側の変更よりも低レベル/ソース側の変更に対してより堅牢です。
(4) 一般的な事前トレーニングは抽象化機能の出現に不可欠であり、PLM はより大きなモデル サイズとデータ スケールでより優れた抽象化を示します。

要約(オリジナル)

Abstraction is a desirable capability for deep learning models, which means to induce abstract concepts from concrete instances and flexibly apply them beyond the learning context. At the same time, there is a lack of clear understanding about both the presence and further characteristics of this capability in deep learning models. In this paper, we introduce a systematic probing framework to explore the abstraction capability of deep learning models from a transferability perspective. A set of controlled experiments are conducted based on this framework, providing strong evidence that two probed pre-trained language models (PLMs), T5 and GPT2, have the abstraction capability. We also conduct in-depth analysis, thus shedding further light: (1) the whole training phase exhibits a ‘memorize-then-abstract’ two-stage process; (2) the learned abstract concepts are gathered in a few middle-layer attention heads, rather than being evenly distributed throughout the model; (3) the probed abstraction capabilities exhibit robustness against concept mutations, and are more robust to low-level/source-side mutations than high-level/target-side ones; (4) generic pre-training is critical to the emergence of abstraction capability, and PLMs exhibit better abstraction with larger model sizes and data scales.

arxiv情報

著者 Shengnan An,Zeqi Lin,Bei Chen,Qiang Fu,Nanning Zheng,Jian-Guang Lou
発行日 2023-02-23 12:50:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク