要約
モデルを教えるためのトレーニング データを作成するプロセスは現在人間によって行われており、モデルの弱点を手動で分析し、生徒のモデルを改善するデータの作成方法を計画します。
LLM をアノテーターとして使用するアプローチでは人間の労力は軽減されますが、それでも人間が評価からのフィードバックを解釈し、学生が必要とするデータを生成するために LLM を制御する必要があります。
自律的なデータ生成エージェント (つまり教師) を作成して、この労働集約的なプロセスを自動化することが望ましいですが、フィードバック主導型の反復的な閉ループのデータ作成をシミュレートできる環境が必要です。
このようなエージェントとそのモジュールの迅速かつスケーラブルなテストを可能にするために、データ生成エージェント用の教師環境のテストベッドである DataEnvGym を導入します。
DataEnvGym は、データ生成を一連の意思決定タスクとして構成します。これには、データ生成ポリシー (トレーニング データを作成するための計画を生成する) とデータ生成エンジン (計画をデータに変換する) で構成されるエージェントが含まれます。
学生のフィードバック。
エージェントの目標は、生徒の成績を向上させることです。
学生は生成されたデータに基づいて繰り返しトレーニングおよび評価され、各繰り返しの後に学生のフィードバック (エラーまたは弱いスキルの形で) がエージェントに報告されます。
DataEnvGym には、状態表現およびアクション空間の 3 つのレベルの構造にわたる複数の教師環境のインスタンス化が含まれています。
より構造化された環境は、推測されたスキルに基づいており、より解釈しやすく、カリキュラムを制御できます。
4 つのドメイン (数学、コード、VQA、ツール使用) をサポートし、複数の生徒と教師をテストします。
私たちの教育環境のサンプルエージェントは、タスクや設定全体で生徒を反復的に改善できます。
さらに、環境がさまざまなスキル レベルを教え、主要モジュールのバリエーションをテストすることを示し、データ生成エージェント、エンジン、フィードバック メカニズムの改善における将来の取り組みを指摘しています。
要約(オリジナル)
The process of creating training data to teach models is currently driven by humans, who manually analyze model weaknesses and plan how to create data that improves a student model. Approaches using LLMs as annotators reduce human effort, but still require humans to interpret feedback from evaluations and control the LLM to produce data the student needs. Automating this labor-intensive process by creating autonomous data generation agents – or teachers – is desirable, but requires environments that can simulate the feedback-driven, iterative, closed loop of data creation. To enable rapid, scalable testing for such agents and their modules, we introduce DataEnvGym, a testbed of teacher environments for data generation agents. DataEnvGym frames data generation as a sequential decision-making task, involving an agent consisting of a data generation policy (which generates a plan for creating training data) and a data generation engine (which transforms the plan into data), inside an environment that provides student feedback. The agent’s goal is to improve student performance. Students are iteratively trained and evaluated on generated data, and their feedback (in the form of errors or weak skills) is reported to the agent after each iteration. DataEnvGym includes multiple teacher environment instantiations across 3 levels of structure in the state representation and action space. More structured environments are based on inferred skills and offer more interpretability and curriculum control. We support 4 domains (math, code, VQA, and tool-use) and test multiple students and teachers. Example agents in our teaching environments can iteratively improve students across tasks and settings. Moreover, we show that environments teach different skill levels and test variants of key modules, pointing to future work in improving data generation agents, engines, and feedback mechanisms.
arxiv情報
著者 | Zaid Khan,Elias Stengel-Eskin,Jaemin Cho,Mohit Bansal |
発行日 | 2024-12-17 18:54:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google