要約
大規模言語モデル (LLM) は、予測に対する説明を生成することにより、複雑な推論を実行します。
ただし、説明の補完的な目的は、弱いエージェントを改善する有用な知識を伝えることでもあります。
したがって、LLM が弱いエージェントにとっても良い教師になるかどうかを調査します。
特に、2 つの LLM エージェント間の生徒と教師の枠組みを考慮し、生徒の成績を向上させるために教師が自然言語説明に介入すべきかどうか、いつ、どのように介入すべきかを研究します。
コミュニケーションにはコストがかかるため、教師がデータの一部についてのみ説明を伝え、その後は生徒が独自に優れたパフォーマンスを発揮できるように予算を定義します。
私たちは指導上の問題を 4 つの軸に沿って分解します: (1) 教師のテスト時間の介入により生徒の予想が改善されるかどうか、(2) データ ポイントを説明する価値があるのはいつか、(3) 生徒をより良く教えるために教師は説明をどのようにカスタマイズする必要があるか、(
4) 教師の説明によって、将来の説明されていないデータに対する生徒の成績も向上するかどうか。
まず、教師の LLM が実際に生徒の推論に介入して、生徒のパフォーマンスを向上させることができることを示します。
次に、教師が生徒の 2 つの少数ショットのメンタル モデルを構築する、心の理論のアプローチを提案します。
最初のモデルは、介入の効用をシミュレートする介入関数を定義し、この効用が最も高いときに教師が介入できるようにし、より低い予算で生徒の成績を向上させます。
2 番目のモデルでは、教師が特定の生徒に合わせて説明をカスタマイズできるため、個別化されていない教師よりも優れたパフォーマンスを発揮できます。
また、マルチターンインタラクションでは、教師の説明が一般化され、説明されたデータから学習することで、将来の説明されていないデータに対する生徒のパフォーマンスが向上することも示しています。
最後に、調整を誤った教師が意図的に生徒を誤解させることで、偶然に生徒の成績を低下させる可能性があることも検証しました。
要約(オリジナル)
Large Language Models (LLMs) perform complex reasoning by generating explanations for their predictions. However, a complementary goal of explanations is to also communicate useful knowledge that improves weaker agents. Hence, we investigate whether LLMs also make good teachers for weaker agents. In particular, we consider a student-teacher framework between two LLM agents and study if, when, and how the teacher should intervene with natural language explanations to improve the student’s performance. Since communication is expensive, we define a budget such that the teacher only communicates explanations for a fraction of the data, after which the student should perform well on its own. We decompose the teaching problem along four axes: (1) if teacher’s test time intervention improve student predictions, (2) when it is worth explaining a data point, (3) how the teacher should personalize explanations to better teach the student, and (4) if teacher explanations also improve student performance on future unexplained data. We first show that teacher LLMs can indeed intervene on student reasoning to improve their performance. Next, we propose a Theory of Mind approach, in which the teacher builds two few-shot mental models of the student. The first model defines an Intervention Function that simulates the utility of an intervention, allowing the teacher to intervene when this utility is the highest and improving student performance at lower budgets. The second model enables the teacher to personalize explanations for a particular student and outperform unpersonalized teachers. We also demonstrate that in multi-turn interactions, teacher explanations generalize and learning from explained data improves student performance on future unexplained data. Finally, we also verify that misaligned teachers can lower student performance to random chance by intentionally misleading them.
arxiv情報
著者 | Swarnadeep Saha,Peter Hase,Mohit Bansal |
発行日 | 2023-06-15 17:27:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google