要約
タイトル:依存関係強化事前学習モデルによる意味マッチングの改善:適応的フュージョン
要約:
– BERTなどのTransformerベースの事前学習モデルは、Semantic Sentence Matchingにおいて大きな進歩を遂げている。
– 一方、依存関係の先行知識がNLPタスクで一般的な利益を示していることも明らかとなっている。
– しかしながら、依存関係の事前学習モデルへの効率的な統合方法は、複雑な意味マッチング関係をより良くモデル化するために未解決のままである。
– 本論文では、意味的情報と適応的にフュージョンする前処理モデルに依存関係構造を明示的に導入するDependency-Enhanced Adaptive Fusion Attention (DAFA)を提案する。
– DAFAは、依存構造を考慮したアテンションウェイト調整のための依存行列の構築に対して、構造感覚パラダイムを最初に提案する。 得られた依存情報と元の意味的信号を適応的にフュージョンするための適応型フュージョンモジュールを採用する。さらに、DAFAはアテンション計算フローを再構築し、より良い解釈性を提供している。
– BERTに適用することにより、本手法は10の公開データセットで最新技術または競争力のあるパフォーマンスを達成し、意味マッチングタスクにおいて依存構造を適応的にフュージョンする利点を示した。
要約(オリジナル)
Transformer-based pre-trained models like BERT have achieved great progress on Semantic Sentence Matching. Meanwhile, dependency prior knowledge has also shown general benefits in multiple NLP tasks. However, how to efficiently integrate dependency prior structure into pre-trained models to better model complex semantic matching relations is still unsettled. In this paper, we propose the \textbf{D}ependency-Enhanced \textbf{A}daptive \textbf{F}usion \textbf{A}ttention (\textbf{DAFA}), which explicitly introduces dependency structure into pre-trained models and adaptively fuses it with semantic information. Specifically, \textbf{\emph{(i)}} DAFA first proposes a structure-sensitive paradigm to construct a dependency matrix for calibrating attention weights. It adopts an adaptive fusion module to integrate the obtained dependency information and the original semantic signals. Moreover, DAFA reconstructs the attention calculation flow and provides better interpretability. By applying it on BERT, our method achieves state-of-the-art or competitive performance on 10 public datasets, demonstrating the benefits of adaptively fusing dependency structure in semantic matching task.
arxiv情報
著者 | Jian Song,Di Liang,Rumei Li,Yuntao Li,Sirui Wang,Minlong Peng,Wei Wu,Yongxin Yu |
発行日 | 2023-04-14 07:30:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI