Towards Responsible Development of Generative AI for Education: An Evaluation-Driven Approach

要約

世界が直面している大きな課題は、質の高い教育への公平かつ普遍的なアクセスを提供することです。
生成 AI (gen AI) の最近の進歩により、すべての学習者に個別の家庭教師を提供し、すべての教師にティーチング アシスタントを提供する新しいテクノロジーの可能性について興奮が高まっています。
しかし、この夢の全容はまだ実現していません。
私たちは、これは主に、教育学的直観を言語化して AI のプロンプトに組み込むことの難しさと、優れた教育学の定義における課題によって強化された適切な評価慣行の欠如によるものであると主張します。
ここでは、学習者と教育者と協力して、学習科学の高レベルの原則を、定量的、定性的、自動および人間による評価にわたる 7 つの多様な教育ベンチマークの実用的なセットに変換するという私たちの取り組みを紹介します。
そして、Gemini の教育能力を向上させるための新しい微調整データセットを開発し、LearnLM-Tutor を導入します。
私たちの評価によると、LearnLM-Tutor は、さまざまな教育面で教育者や学習者によって、迅速に調整された Gemini よりも一貫して好まれています。
私たちは、この取り組みが包括的な教育評価フレームワークの開発に向けた第一歩として機能し、これによって教育における世代 AI のプラスの影響を最大化することに向けて AI および EdTech コミュニティ内での急速な進歩が可能になることを願っています。

要約(オリジナル)

A major challenge facing the world is the provision of equitable and universal access to quality education. Recent advances in generative AI (gen AI) have created excitement about the potential of new technologies to offer a personal tutor for every learner and a teaching assistant for every teacher. The full extent of this dream, however, has not yet materialised. We argue that this is primarily due to the difficulties with verbalising pedagogical intuitions into gen AI prompts and the lack of good evaluation practices, reinforced by the challenges in defining excellent pedagogy. Here we present our work collaborating with learners and educators to translate high level principles from learning science into a pragmatic set of seven diverse educational benchmarks, spanning quantitative, qualitative, automatic and human evaluations; and to develop a new set of fine-tuning datasets to improve the pedagogical capabilities of Gemini, introducing LearnLM-Tutor. Our evaluations show that LearnLM-Tutor is consistently preferred over a prompt tuned Gemini by educators and learners on a number of pedagogical dimensions. We hope that this work can serve as a first step towards developing a comprehensive educational evaluation framework, and that this can enable rapid progress within the AI and EdTech communities towards maximising the positive impact of gen AI in education.

arxiv情報

著者 Irina Jurenka,Markus Kunesch,Kevin R. McKee,Daniel Gillick,Shaojian Zhu,Sara Wiltberger,Shubham Milind Phal,Katherine Hermann,Daniel Kasenberg,Avishkar Bhoopchand,Ankit Anand,Miruna Pîslar,Stephanie Chan,Lisa Wang,Jennifer She,Parsa Mahmoudieh,Aliya Rysbek,Wei-Jen Ko,Andrea Huber,Brett Wiltshire,Gal Elidan,Roni Rabin,Jasmin Rubinovitz,Amit Pitaru,Mac McAllister,Julia Wilkowski,David Choi,Roee Engelberg,Lidan Hackmon,Adva Levin,Rachel Griffin,Michael Sears,Filip Bar,Mia Mesar,Mana Jabbour,Arslan Chaudhry,James Cohan,Sridhar Thiagarajan,Nir Levine,Ben Brown,Dilan Gorur,Svetlana Grant,Rachel Hashimshoni,Laura Weidinger,Jieru Hu,Dawn Chen,Kuba Dolecki,Canfer Akbulut,Maxwell Bileschi,Laura Culp,Wen-Xin Dong,Nahema Marchal,Kelsie Van Deman,Hema Bajaj Misra,Michael Duah,Moran Ambar,Avi Caciularu,Sandra Lefdal,Chris Summerfield,James An,Pierre-Alexandre Kamienny,Abhinit Mohdi,Theofilos Strinopoulous,Annie Hale,Wayne Anderson,Luis C. Cobo,Niv Efron,Muktha Ananda,Shakir Mohamed,Maureen Heymans,Zoubin Ghahramani,Yossi Matias,Ben Gomes,Lila Ibrahim
発行日 2024-07-19 14:03:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG パーマリンク