要約
トランスフォーマーなどのディープ アーキテクチャは、解釈できない「ブラックボックス」表現を持つと批判されることがあります。
私たちは因果的介入分析を使用して、実際にはいくつかの言語的特徴が線形で解釈可能な形式で表現されていることを示します。
具体的には、BERT の動詞の活用能力は、活用精度に予測可能な影響を与えるように操作できる主語番号の線形エンコーディングに依存していることを示します。
このエンコーディングは、最初の層の主語の位置と最後の層の動詞の位置で見つかりますが、特に主語番号に対する複数の手がかりがある場合、中間層の位置全体に分散されます。
要約(オリジナル)
Deep architectures such as Transformers are sometimes criticized for having uninterpretable ‘black-box’ representations. We use causal intervention analysis to show that, in fact, some linguistic features are represented in a linear, interpretable format. Specifically, we show that BERT’s ability to conjugate verbs relies on a linear encoding of subject number that can be manipulated with predictable effects on conjugation accuracy. This encoding is found in the subject position at the first layer and the verb position at the last layer, but distributed across positions at middle layers, particularly when there are multiple cues to subject number.
arxiv情報
著者 | Sophie Hao,Tal Linzen |
発行日 | 2023-10-23 17:53:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google