Can You Learn Semantics Through Next-Word Prediction? The Case of Entailment

要約

LM は学習データの共起パターンからテキストの意味論を推論するのだろうか?Merrillら(2022)は、理論的には、最適なLMによって予測される確率は、含意関係に関する意味情報を包含していると主張するが、Merrillらによる強い理想化の仮定があるため、コーパスで学習されたニューラルLMがこのように含意関係を学習するかどうかは不明である。その結果、Merrillらと同様のテストにより、多くのデータセットとLMにおいて、完全ではないものの、偶然を大きく上回る確率で自然文間の含意関係を解読できることがわかった。このことは、LMが暗黙のうちに意味論的な側面をモデル化し、文の共起パターンに対する意味論的効果を予測していることを示唆している。しかし、実際に連語を予測するテストは、理論的なテストとは逆の方向に働くことがわかった。このため、元のテストの前提条件を再検討し、その導出が人間が書いた文章における冗長性を適切に考慮していないことを発見した。説明に関連する冗長性を正しく考慮することで、観測された反転テストが導き出される可能性があり、より一般的には、人間の話者に関する言語理論を改善する可能性があると主張する。

要約(オリジナル)

Do LMs infer the semantics of text from co-occurrence patterns in their training data? Merrill et al. (2022) argue that, in theory, probabilities predicted by an optimal LM encode semantic information about entailment relations, but it is unclear whether neural LMs trained on corpora learn entailment in this way because of strong idealizing assumptions made by Merrill et al. In this work, we investigate whether their theory can be used to decode entailment judgments from neural LMs. We find that a test similar to theirs can decode entailment relations between natural sentences, well above random chance, though not perfectly, across many datasets and LMs. This suggests LMs implicitly model aspects of semantics to predict semantic effects on sentence co-occurrence patterns. However, we find the test that predicts entailment in practice works in the opposite direction to the theoretical test. We thus revisit the assumptions underlying the original test, finding its derivation did not adequately account for redundancy in human-written text. We argue that correctly accounting for redundancy related to explanations might derive the observed flipped test and, more generally, improve linguistic theories of human speakers.

arxiv情報

著者 William Merrill,Zhaofeng Wu,Norihito Naka,Yoon Kim,Tal Linzen
発行日 2024-02-29 22:18:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク