要約
大規模な言語モデル(LLM)を搭載したインテリジェントな個別指導エージェントは、言語学習や科学教育などの分野でパーソナライズされたガイダンスを提供するためにますます調査されています。
ただし、複雑な現実世界のタスクを解決するようにユーザーを導く能力は、採用不足のままです。
この制限に対処するために、この作業では、コーディングの個別指導に焦点を当てています。これは、チューターが事前定義されたコーディングタスクを完了するために生徒を積極的に導く必要がある挑戦的な問題です。
斬新なエージェントワークフローであるTrace-and-Verify(Traver)を提案します。これは、知識トレースを組み合わせて、学生の知識状態とターンバイターン検証を推定して、タスクの完了に向けた効果的なガイダンスを確保することを提案します。
制御された学生シミュレーションとコード生成テストを使用して、チューターエージェントを総合的に評価する自動評価プロトコルであるDictを紹介します。
広範な実験は、個別指導のコーディングの課題を明らかにし、Traverが大幅に高い成功率を達成することを示しています。
このホワイトペーパーの例としてコードチューターを使用していますが、結果と調査結果はコーディングを超えて拡張され、さまざまなタスクの個別指導エージェントの前進に関する貴重な洞察を提供できます。
要約(オリジナル)
Intelligent tutoring agents powered by large language models (LLMs) have been increasingly explored to deliver personalized guidance in areas such as language learning and science education. However, their capabilities in guiding users to solve complex real-world tasks remain underexplored. To address this limitation, in this work, we focus on coding tutoring, a challenging problem that requires tutors to proactively guide students toward completing predefined coding tasks. We propose a novel agent workflow, Trace-and-Verify (TRAVER), which combines knowledge tracing to estimate a student’s knowledge state and turn-by-turn verification to ensure effective guidance toward task completion. We introduce DICT, an automatic evaluation protocol that assesses tutor agents holistically using controlled student simulation and code generation tests. Extensive experiments reveal the challenges of coding tutoring and demonstrate that TRAVER achieves a significantly higher success rate. Although we use code tutoring as an example in this paper, our results and findings can be extended beyond coding, providing valuable insights into advancing tutoring agents for a variety of tasks.
arxiv情報
著者 | Jian Wang,Yinpei Dai,Yichi Zhang,Ziqiao Ma,Wenjie Li,Joyce Chai |
発行日 | 2025-02-21 17:25:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google