要約
大規模な言語モデルが特定の意味論的または構文的特徴をどの程度うまく捉えているかを理解するために、研究者は通常、詳細な分類器を適用します。
ただし、結果を正しく解釈するには、これらの分類子の精度が重要です。
精査分類器の精度が低い場合は、言語モデルが調査対象のプロパティを捕捉していないという事実、または分類器自体の欠陥 (言語モデルの内部表現にエンコードされた特性を適切に捕捉できない) が原因である可能性があります。
モデル。
したがって、より効果的な診断を行うには、特定の種類のタスクに対して可能な限り最も正確な分類器を使用する必要があります。
トランスフォーマー ニューラル ネットワーク層の出力表現に対するロジスティック回帰は、言語モデルの構文特性を調査するために最もよく使用されます。
ナレッジニューロン層、つまり、文の一部を認識するための精査分類器として変換器のフィードフォワードネットワークの隠れ層で勾配ブースティング決定木を使用することは、出力表現でロジスティック回帰を使用するよりも有利であることを示します。
トランス層の。
このアプローチは、他の多くの方法よりも推奨されます。
エラー率の増加は、プリセットに応じて 9 ~ 54% の範囲になります。
要約(オリジナル)
To understand how well a large language model captures certain semantic or syntactic features, researchers typically apply probing classifiers. However, the accuracy of these classifiers is critical for the correct interpretation of the results. If a probing classifier exhibits low accuracy, this may be due either to the fact that the language model does not capture the property under investigation, or to shortcomings in the classifier itself, which is unable to adequately capture the characteristics encoded in the internal representations of the model. Consequently, for more effective diagnosis, it is necessary to use the most accurate classifiers possible for a particular type of task. Logistic regression on the output representation of the transformer neural network layer is most often used to probing the syntactic properties of the language model. We show that using gradient boosting decision trees at the Knowledge Neuron layer, i.e., at the hidden layer of the feed-forward network of the transformer as a probing classifier for recognizing parts of a sentence is more advantageous than using logistic regression on the output representations of the transformer layer. This approach is also preferable to many other methods. The gain in error rate, depending on the preset, ranges from 9-54%
arxiv情報
著者 | Sergey A. Saltykov |
発行日 | 2023-12-17 15:37:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google