要約
この論文の目的は、Seq2Seq モデルに関する特定の科学的発見を報告することです。
RNN ベースのモデルの動作をニューロン レベルで分析することは、DNN や CNN モデルの分析よりも困難なタスクと見なされることが知られています。
このホワイト ペーパーは、ニューロン レベルの分析を提供して、注意を払わないバニラ GRU ベースの Seq2Seq モデルがトークン ポジショニングを達成できる理由を説明することを目的としています。
保存、カウント、トリガー、出力の 4 種類のニューロンを発見し、これらのニューロンが連携して正しいトークンを正しい位置に生成するメカニズムをさらに明らかにしました。
要約(オリジナル)
The goal of this paper is to report certain scientific discoveries about a Seq2Seq model. It is known that analyzing the behavior of RNN-based models at the neuron level is considered a more challenging task than analyzing a DNN or CNN models due to their recursive mechanism in nature. This paper aims to provide neuron-level analysis to explain why a vanilla GRU-based Seq2Seq model without attention can achieve token-positioning. We found four different types of neurons: storing, counting, triggering, and outputting and further uncover the mechanism for these neurons to work together in order to produce the right token in the right position.
arxiv情報
著者 | Yi-Ting Lee,Da-Yi Wu,Chih-Chun Yang,Shou-De Lin |
発行日 | 2023-03-27 10:25:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google