The Reversal Curse: LLMs trained on ‘A is B’ fail to learn ‘B is A’

要約

自己回帰大規模言語モデル (LLM) における一般化の驚くべき失敗を明らかにします。
モデルが「A は B である」という形式の文でトレーニングされた場合、逆方向の「B は A である」には自動的に一般化されません。
これが逆転の呪いです。
たとえば、モデルが「オラフ・ショルツはドイツの第 9 代首相だった」ということでトレーニングされた場合、「ドイツの第 9 代首相は誰ですか?」という質問に自動的に答えることはできません。
さらに、正解 (「オラフ ショルツ」) の可能性は、ランダムな名前の場合よりも高くはありません。
したがって、モデルは論理演繹の基本的な失敗を示しており、トレーニング セットで一般的なパターンを一般化していません (つまり、「A は B」が発生する場合、「B は A」が発生する可能性が高くなります)。
「ユーライア・ホーソーンは『深淵のメロディー』の作曲家である」などの架空の記述に基づいて GPT-3 と Llama-1 を微調整し、「誰が『深淵のメロディー』を作曲したのか?」に正しく答えられないことを示すことで、逆転の呪いの証拠を提供します。

Reversal Curse は、モデル サイズやモデル ファミリ全体にわたって堅牢であり、データの増強によって軽減されることはありません。
また、「トム クルーズの母親は誰ですか?」など、現実世界の有名人に関する質問について ChatGPT (GPT-3.5 および GPT-4) を評価します。
[A: メアリー・リー・ファイファー]」とその逆、「メアリー・リー・ファイファーの息子は誰ですか?」。
GPT-4 は前者のような質問に 79% の確率で正しく答えますが、後者は 33% です。
これは、私たちが仮説を立てる論理的推論の失敗が逆転の呪いによって引き起こされたことを示しています。
コードは https://github.com/lukasberglund/reversal_curse で入手できます。

要約(オリジナル)

We expose a surprising failure of generalization in auto-regressive large language models (LLMs). If a model is trained on a sentence of the form ‘A is B’, it will not automatically generalize to the reverse direction ‘B is A’. This is the Reversal Curse. For instance, if a model is trained on ‘Olaf Scholz was the ninth Chancellor of Germany’, it will not automatically be able to answer the question, ‘Who was the ninth Chancellor of Germany?’. Moreover, the likelihood of the correct answer (‘Olaf Scholz’) will not be higher than for a random name. Thus, models exhibit a basic failure of logical deduction and do not generalize a prevalent pattern in their training set (i.e. if ‘A is B” occurs, ‘B is A’ is more likely to occur). We provide evidence for the Reversal Curse by finetuning GPT-3 and Llama-1 on fictitious statements such as ‘Uriah Hawthorne is the composer of ‘Abyssal Melodies” and showing that they fail to correctly answer ‘Who composed ‘Abyssal Melodies?”. The Reversal Curse is robust across model sizes and model families and is not alleviated by data augmentation. We also evaluate ChatGPT (GPT-3.5 and GPT-4) on questions about real-world celebrities, such as ‘Who is Tom Cruise’s mother? [A: Mary Lee Pfeiffer]’ and the reverse ‘Who is Mary Lee Pfeiffer’s son?’. GPT-4 correctly answers questions like the former 79% of the time, compared to 33% for the latter. This shows a failure of logical deduction that we hypothesize is caused by the Reversal Curse. Code is available at https://github.com/lukasberglund/reversal_curse.

arxiv情報

著者 Lukas Berglund,Meg Tong,Max Kaufmann,Mikita Balesni,Asa Cooper Stickland,Tomasz Korbak,Owain Evans
発行日 2023-09-21 17:52:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク