Babysit A Language Model From Scratch: Interactive Language Learning by Trials and Demonstrations

要約

人間は効率的な言語学習者であり、本質的に社会的な生き物です。
私たちの言語開発は、たとえば介護者からのデモとフィードバックなど、私たちの社会的相互作用によって大きく形成されています。
人間の言語学習とは反対に、最近の大規模な言語モデルの進歩は、主に非対話型トレーニングパラダイムを採用し、その後のフィードバックを通じて事前に訓練されたモデルを洗練しました。
この作業では、相互作用からの修正フィードバックが、系統的に制御された実験を介して、神経言語の獲得にゼロからどのように影響するかを探り、言語モデルの単語学習効率に貢献するかどうかを評価します。
学生の試験、教師のデモ、およびさまざまな発達段階での言語能力を条件とする報酬の3つの異なるコンポーネントを組み込んだ試行とデモンストレーション(TND)学習フレームワークを紹介します。
私たちの実験は、TNDアプローチが等しく少数のパラメーターの学生モデルの単語習得を加速することを明らかにし、試験とデモの両方の重要性を強調しています。
さらに、単語の教師の選択が生徒の単語固有の学習効率に影響を与え、試行における単語の頻度とそれぞれの学習曲線との間の強い相関関係によって、練習メイクの完璧な効果が明らかであることを示します。
私たちの調査結果は、教師のデモと積極的な試験を受けたインタラクティブな言語学習が、言語モデルの効率的な単語学習を促進できることを示唆しています。

要約(オリジナル)

Humans are efficient language learners and inherently social creatures. Our language development is largely shaped by our social interactions, for example, the demonstration and feedback from caregivers. Contrary to human language learning, recent advancements in large language models have primarily adopted a non-interactive training paradigm, and refined pre-trained models through feedback afterward. In this work, we explore how corrective feedback from interactions influences neural language acquisition from scratch through systematically controlled experiments, assessing whether it contributes to word learning efficiency in language models. We introduce a trial-and-demonstration (TnD) learning framework that incorporates three distinct components: student trials, teacher demonstrations, and a reward conditioned on language competence at various developmental stages. Our experiments reveal that the TnD approach accelerates word acquisition for student models of equal and smaller numbers of parameters, and we highlight the significance of both trials and demonstrations. We further show that the teacher’s choices of words influence students’ word-specific learning efficiency, and a practice-makes-perfect effect is evident by a strong correlation between the frequency of words in trials and their respective learning curves. Our findings suggest that interactive language learning, with teacher demonstrations and active trials, can facilitate efficient word learning in language models.

arxiv情報

著者 Ziqiao Ma,Zekun Wang,Joyce Chai
発行日 2025-04-18 16:06:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク