要約
さまざまなトランスフォーマー アーキテクチャで誘導された文埋め込みは、多くの意味論的情報と構文情報を 1 次元配列に分散してエンコードします。
私たちは、これらの分散表現で特定の文法情報にアクセスできるかどうかを調査します。
ルールのような一般化をテストするために開発されたタスクからのデータを使用して、主語と動詞の一致を検出する実験では、いくつかの有望な結果が得られます。
まず、1 次元配列としてエンコードされた通常の文表現はルールのような規則性の抽出を容易にサポートできない一方で、これらのベクトルを 2 次元に再形成することで、さまざまな学習アーキテクチャがそのような情報にアクセスできることを示します。
次に、さまざまなアーキテクチャが、これらの 2 次元に再形成された文の埋め込みのパターンを検出し、より複雑なテスト データに対して良好なパフォーマンスを発揮する、より少量の単純なトレーニング データに基づいてモデルを正常に学習できることを示します。
これは、現在の文の埋め込みには定期的に分散される情報が含まれており、埋め込みが高次元の配列に再形成されるときに取得できることを示しています。
私たちの結果は、言語モデルによって生成される表現に光を当て、少数ショット学習アプローチの開発に向けて進むのに役立ちます。
要約(オリジナル)
Sentence embeddings induced with various transformer architectures encode much semantic and syntactic information in a distributed manner in a one-dimensional array. We investigate whether specific grammatical information can be accessed in these distributed representations. Using data from a task developed to test rule-like generalizations, our experiments on detecting subject-verb agreement yield several promising results. First, we show that while the usual sentence representations encoded as one-dimensional arrays do not easily support extraction of rule-like regularities, a two-dimensional reshaping of these vectors allows various learning architectures to access such information. Next, we show that various architectures can detect patterns in these two-dimensional reshaped sentence embeddings and successfully learn a model based on smaller amounts of simpler training data, which performs well on more complex test data. This indicates that current sentence embeddings contain information that is regularly distributed, and which can be captured when the embeddings are reshaped into higher dimensional arrays. Our results cast light on representations produced by language models and help move towards developing few-shot learning approaches.
arxiv情報
著者 | Vivi Nastase,Paola Merlo |
発行日 | 2023-12-15 15:41:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google