要約
複雑な特徴抽出器は、テキスト表現の構築に広く使用されています。
ただし、これらの複雑な特徴抽出器により、特に下流のトレーニング データセットが比較的小さい場合 (いくつかの談話解析タスクに当てはまります) に NLP システムが過剰適合する傾向があります。
したがって、事前トレーニングされた言語モデルの一般化可能性を最大限に維持するために、複数の複雑な特徴抽出器を削除し、事前トレーニングされたニューラル言語モデルを間接的に活用する学習可能な自己注意モジュールのみを利用する、代替の軽量ニューラル アーキテクチャを提案します。
3 つの一般的な談話解析タスクに関する実験では、最近の事前トレーニング済み言語モデルを活用することで、2 つのセルフアテンション層だけで構成される軽量アーキテクチャがはるかに優れた一般化性と堅牢性を獲得できることが示されました。
一方で、学習可能なパラメータを減らし、処理時間を短縮しながら、同等またはそれ以上のシステム パフォーマンスを実現します。
要約(オリジナル)
Complex feature extractors are widely employed for text representation building. However, these complex feature extractors make the NLP systems prone to overfitting especially when the downstream training datasets are relatively small, which is the case for several discourse parsing tasks. Thus, we propose an alternative lightweight neural architecture that removes multiple complex feature extractors and only utilizes learnable self-attention modules to indirectly exploit pretrained neural language models, in order to maximally preserve the generalizability of pre-trained language models. Experiments on three common discourse parsing tasks show that powered by recent pretrained language models, the lightweight architecture consisting of only two self-attention layers obtains much better generalizability and robustness. Meanwhile, it achieves comparable or even better system performance with fewer learnable parameters and less processing time.
arxiv情報
著者 | Ming Li,Ruihong Huang |
発行日 | 2023-09-08 05:37:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google