Tracking linguistic information in transformer-based sentence embeddings through targeted sparsification

要約

トランスフォーマーベースのモデルを分析したところ、テキスト入力からさまざまな言語情報をエンコードしていることがわかりました。
これらの分析により、一方では言語情報、もう一方では内部アーキテクチャとパラメータとの関係が明らかになりましたが、この言語情報が文の埋め込みにどのように反映されるのかという疑問は未解決のままです。
既知の構造を持つ文で構成されるデータセットを使用して、文法番号や意味的役割などのチャンク (特に名詞、動詞、前置詞句) に関する情報が文埋め込み内でどの程度ローカライズできるかをテストします。
私たちの結果は、そのような情報が文の埋め込み全体に分散しているのではなく、特定の領域でエンコードされているということを示しています。
入力テキストからの情報がどのように文の埋め込みに圧縮されるかを理解することは、現在のトランスフォーマー モデルを理解し、将来の説明可能なニューラル モデルを構築するのに役立ちます。

要約(オリジナル)

Analyses of transformer-based models have shown that they encode a variety of linguistic information from their textual input. While these analyses have shed a light on the relation between linguistic information on one side, and internal architecture and parameters on the other, a question remains unanswered: how is this linguistic information reflected in sentence embeddings? Using datasets consisting of sentences with known structure, we test to what degree information about chunks (in particular noun, verb or prepositional phrases), such as grammatical number, or semantic role, can be localized in sentence embeddings. Our results show that such information is not distributed over the entire sentence embedding, but rather it is encoded in specific regions. Understanding how the information from an input text is compressed into sentence embeddings helps understand current transformer models and help build future explainable neural models.

arxiv情報

著者 Vivi Nastase,Paola Merlo
発行日 2024-07-25 15:27:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, I.2.7 パーマリンク