Hidden Schema Networks

要約

大規模な事前トレーニング済み言語モデルは、暗黙的ではありますが、豊富な意味論的および構文的なコンテンツをエンコードする強力な表現を推論します。
この研究では、帰納的バイアスを介して、事前トレーニング済み言語モデルの出力表現に構成性を可能にする明示的な関係構造を強制する新しいニューラル言語モデルを導入します。
具体的には、モデルは文をシンボルのシーケンス (合成表現) にエンコードします。シンボルのシーケンスは、グローバル潜在グラフ上のバイアスされたランダム ウォーカーが訪問するノードに対応し、後者の事後分布を推論します。
まず、このモデルが人工的に生成されたランダム トークン シーケンスのデータセットからグラウンド トゥルース グラフを明らかにできることを実証します。
次に、事前トレーニングされた BERT 言語モデルをエンコーダーとして、GPT-2 言語モデルをデコーダーとして利用し、自然言語データセットからシンボルのネットワーク (スキーマ) を推論します。
私たちの実験は、(i) 推論されたシンボルは、言語のさまざまな側面をエンコードしていると解釈できることを示しています。
(ii) GPT のようなモデルは、記号表現に効果的に条件付けできること。
最後に、常識知識データベースから推論されたスキーマ ネットワーク上で自己回帰ランダム ウォーク「推論」モデルをトレーニングし、サンプリングされたパスを使用して常識的な If-Then 推論タスクでの事前トレーニング済み言語モデルのパフォーマンスを向上させる方法を検討します。

要約(オリジナル)

Large, pretrained language models infer powerful representations that encode rich semantic and syntactic content, albeit implicitly. In this work we introduce a novel neural language model that enforces, via inductive biases, explicit relational structures which allow for compositionality onto the output representations of pretrained language models. Specifically, the model encodes sentences into sequences of symbols (composed representations), which correspond to the nodes visited by biased random walkers on a global latent graph, and infers the posterior distribution of the latter. We first demonstrate that the model is able to uncover ground-truth graphs from artificially generated datasets of random token sequences. Next, we leverage pretrained BERT and GPT-2 language models as encoder and decoder, respectively, to infer networks of symbols (schemata) from natural language datasets. Our experiments show that (i) the inferred symbols can be interpreted as encoding different aspects of language, as e.g. topics or sentiments, and that (ii) GPT-like models can effectively be conditioned on symbolic representations. Finally, we explore training autoregressive, random walk “reasoning’ models on schema networks inferred from commonsense knowledge databases, and using the sampled paths to enhance the performance of pretrained language models on commonsense If-Then reasoning tasks.

arxiv情報

著者 Ramsés J. Sánchez,Lukas Conrads,Pascal Welke,Kostadin Cvejoski,César Ojeda
発行日 2023-05-26 16:06:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク