要約
間違いから学ぶことは、人間の知性の基本的な特徴です。
以前の研究では、大規模な言語モデル(LLM)は、答えが間違っている理由またはそれを修正する方法を詳述する包括的な根拠を提供する場合、誤った回答から学習できることを示しています。
この作業では、これらの説明が提供されていない場合、LLMSが数学的推論タスクの間違いから学ぶことができるかどうかを調べます。
LLMが、誤った答えと正解の両方を観察するだけで、そのような理論的根拠を暗黙的に推測できるかどうかを調査します。
驚くべきことに、LLMSは、文脈から理論的根拠が排除され、正しい回答と一緒に正しい回答と一緒に表示される場合、平均してより良くパフォーマンスを発揮します。
また、このアプローチは、私たちの評価におけるチェーンの考え方を大幅に上回っています。
これらの結果は、さまざまなサイズのLLMとさまざまな推論能力にわたって一貫していることを示しています。
さらに、詳細な分析を実施し、間違った答えと正解の両方でプロンプトがコンテキストに追加の、より多様な質問回答ペアを導入するよりも、パフォーマンスと一般化の向上につながることを示します。
最後に、誤った答えと正解のみが観察されたモデルによって生成された新しい理論的根拠は、模範的な根拠の助けを借りて生成されたものと同じくらい人間によって等しく採点されることを示します。
私たちの結果は、LLMが実際にコンテキスト内の暗黙学習が可能であることを示しています。
要約(オリジナル)
Learning from mistakes is a fundamental feature of human intelligence. Previous work has shown that Large Language Models (LLMs) can also learn from incorrect answers when provided with a comprehensive rationale detailing why an answer is wrong or how to correct it. In this work, we examine whether LLMs can learn from mistakes in mathematical reasoning tasks when these explanations are not provided. We investigate if LLMs are able to implicitly infer such rationales simply from observing both incorrect and correct answers. Surprisingly, we find that LLMs perform better, on average, when rationales are eliminated from the context and incorrect answers are simply shown alongside correct ones. This approach also substantially outperforms chain-of-thought prompting in our evaluations. We show that these results are consistent across LLMs of different sizes and varying reasoning abilities. Further, we carry out an in-depth analysis, and show that prompting with both wrong and correct answers leads to greater performance and better generalisation than introducing additional, more diverse question-answer pairs into the context. Finally, we show that new rationales generated by models that have only observed incorrect and correct answers are scored equally as highly by humans as those produced with the aid of exemplar rationales. Our results demonstrate that LLMs are indeed capable of in-context implicit learning.
arxiv情報
著者 | Lisa Alazraki,Maximilian Mozes,Jon Ander Campos,Yi Chern Tan,Marek Rei,Max Bartolo |
発行日 | 2025-02-12 16:31:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google