Can You Learn Semantics Through Next-Word Prediction? The Case of Entailment

要約

LM はトレーニング データ内の共起パターンからテキストのセマンティクスを推測しますか?
メリルら。
(2022) 理論的には、最適な LM によって予測される文の共起確率は、構成する文の含意関係を反映するはずですが、ニューラル LM によって予測される確率がこのように含意をエンコードするかどうかは不明です。
メリルら。
(つまり、人間は常に冗長性を回避します)。
この研究では、彼らの理論を使用してニューラル LM から含意関係を解読できるかどうかを調査します。
私たちは、彼らと同様のテストにより、多くのデータセットと LM にわたって、完全ではないものの、ランダムな確率をはるかに超えて自然文間の含意関係を解読できることがわかりました。
これは、LM が意味論の側面を暗黙的にモデル化して、文の共起パターンに対する意味論的な影響を予測していることを示唆しています。
ただし、実際の含意を予測するテストは、理論的なテストとは逆の方向に機能することがわかります。
そこで、元のテストの基礎となる仮定を再検討し、その導出では人間が書いたテキストの冗長性が適切に考慮されていないことがわかりました。
私たちは、説明に関連する冗長性をより適切に考慮することで、観察された反転テストが導き出され、より一般的には言語学における話者の計算モデルが改善される可能性があると主張します。

要約(オリジナル)

Do LMs infer the semantics of text from co-occurrence patterns in their training data? Merrill et al. (2022) argue that, in theory, sentence co-occurrence probabilities predicted by an optimal LM should reflect the entailment relationship of the constituent sentences, but it is unclear whether probabilities predicted by neural LMs encode entailment in this way because of strong assumptions made by Merrill et al. (namely, that humans always avoid redundancy). In this work, we investigate whether their theory can be used to decode entailment relations from neural LMs. We find that a test similar to theirs can decode entailment relations between natural sentences, well above random chance, though not perfectly, across many datasets and LMs. This suggests LMs implicitly model aspects of semantics to predict semantic effects on sentence co-occurrence patterns. However, we find the test that predicts entailment in practice works in the opposite direction to the theoretical test. We thus revisit the assumptions underlying the original test, finding its derivation did not adequately account for redundancy in human-written text. We argue that better accounting for redundancy related to explanations might derive the observed flipped test and, more generally, improve computational models of speakers in linguistics.

arxiv情報

著者 William Merrill,Zhaofeng Wu,Norihito Naka,Yoon Kim,Tal Linzen
発行日 2024-07-17 17:49:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク