DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback

要約

モデルを教えるためのトレーニングデータを作成するプロセスは現在、モデルの弱点を手動で分析し、学生モデルを改善するデータを作成する方法を計画する人間によって駆動されます。
アノテーターとしてLLMを使用するアプローチは、人間の努力を減らしますが、それでも人間に評価からフィードバックを解釈し、学生が必要とするデータを作成するためにLLMを制御する必要があります。
自律データ生成エージェントまたは教師を作成することにより、この労働集約的なプロセスを自動化することは望ましいが、データ作成のフィードバック駆動型の反復的な閉ループをシミュレートできる環境が必要です。
このようなエージェントとそのモジュールの迅速でスケーラブルなテストを可能にするために、データ生成エージェントの教師環境のテストベッドであるDataENVGYMを導入します。
DataENVGYMは、データ生成ポリシー(トレーニングデータの作成計画を生成する)とデータ生成エンジン(計画をデータに変換する)で構成されるエージェントを含む、順次意思決定タスクとしてデータ生成をフレーム化します。
エージェントの目標は、学生のパフォーマンスを向上させることです。
生徒は生成されたデータで繰り返し訓練および評価され、そのフィードバック(エラーまたは弱いスキルの形で)が各反復後にエージェントに報告されます。
DataENVGYMには、州の表現と行動空間の3つのレベルの構造にわたる複数の教師環境インスタンス化が含まれます。
より構造化された環境は、推測されたスキルに基づいており、より解釈可能性とカリキュラム制御を提供します。
4つのドメイン(数学、コード、VQA、ツール使用)をサポートし、複数の学生と教師をテストします。
私たちの教育環境の例のエージェントは、タスクと設定全体で学生を繰り返し改善できます。
さらに、環境がさまざまなスキルレベルと主要モジュールのテストバリアントを教え、データ生成エージェント、エンジン、フィードバックメカニズムの改善における将来の作業を指摘することを示しています。

要約(オリジナル)

The process of creating training data to teach models is currently driven by humans, who manually analyze model weaknesses and plan how to create data that improves a student model. Approaches using LLMs as annotators reduce human effort, but still require humans to interpret feedback from evaluations and control the LLM to produce data the student needs. Automating this labor-intensive process by creating autonomous data generation agents – or teachers – is desirable, but requires environments that can simulate the feedback-driven, iterative, closed loop of data creation. To enable rapid, scalable testing for such agents and their modules, we introduce DataEnvGym, a testbed of teacher environments for data generation agents. DataEnvGym frames data generation as a sequential decision-making task, involving an agent consisting of a data generation policy (which generates a plan for creating training data) and a data generation engine (which transforms the plan into data), inside an environment that provides student feedback. The agent’s goal is to improve student performance. Students are iteratively trained and evaluated on generated data, and their feedback (in the form of errors or weak skills) is reported to the agent after each iteration. DataEnvGym includes multiple teacher environment instantiations across 3 levels of structure in the state representation and action space. More structured environments are based on inferred skills and offer more interpretability and curriculum control. We support 4 domains (math, code, VQA, and tool-use) and test multiple students and teachers. Example agents in our teaching environments can iteratively improve students across tasks and settings. Moreover, we show that environments teach different skill levels and test variants of key modules, pointing to future work in improving data generation agents, engines, and feedback mechanisms.

arxiv情報

著者 Zaid Khan,Elias Stengel-Eskin,Jaemin Cho,Mohit Bansal
発行日 2025-03-13 17:30:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク