Picking the Underused Heads: A Network Pruning Perspective of Attention Head Selection for Fusing Dialogue Coreference Information

要約

マルチヘッド セルフ アテンション メカニズムを備えた Transformer ベースのモデルは、自然言語処理で広く使用されており、最先端の結果を提供します。
事前トレーニングされた言語バックボーンは特定の言語知識を暗黙的に取得することが示されていますが、構造認識機能を明示的に組み込むことで、下流のタスクにさらなる改善をもたらすことができます。
ただし、そのような強化には追加のニューラル コンポーネントが必要になることが多く、トレーニング パラメーターのサイズが増加します。
この研究では、ネットワーク枝刈りの観点から特徴注入のためのアテンションヘッドの選択と操作戦略を調査し、対話要約に関するケーススタディを実施します。
まず、Transformer ベースのサマライザーで注目度をレイヤーごとの重要度でランク付けします。
次に、広範な分析を通じて十分に使用されていないヘッドを選択し、選択したヘッドを操作して構造を認識した機能を注入します。
実験結果は、重要度に基づく頭部選択が特徴注入に効果的であり、頭部操作を介して共参照情報を組み込むことによって対話の要約を改善できることを示しています。

要約(オリジナル)

The Transformer-based models with the multi-head self-attention mechanism are widely used in natural language processing, and provide state-of-the-art results. While the pre-trained language backbones are shown to implicitly capture certain linguistic knowledge, explicitly incorporating structure-aware features can bring about further improvement on the downstream tasks. However, such enhancement often requires additional neural components and increases training parameter size. In this work, we investigate the attention head selection and manipulation strategy for feature injection from a network pruning perspective, and conduct a case study on dialogue summarization. We first rank attention heads in a Transformer-based summarizer with layer-wise importance. We then select the underused heads through extensive analysis, and inject structure-aware features by manipulating the selected heads. Experimental results show that the importance-based head selection is effective for feature injection, and dialogue summarization can be improved by incorporating coreference information via head manipulation.

arxiv情報

著者 Zhengyuan Liu,Nancy F. Chen
発行日 2023-12-15 05:27:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク