Training of Scaffolded Language Models with Language Supervision: A Survey

要約

この調査では、訓練後のLMS周辺の新興構造の設計と最適化に関する複雑な文献を開催しています。
この包括的な構造を足場LMSと呼び、ツールを使用してマルチステッププロセスに統合されているLMSに焦点を当てます。
足場LMSは、プロンプト、ツール、および足場のコードを含むノンパラメトリック変数をトレーニングする半パラメトリックモデルと見なしています。
特に、指示を解釈し、ツールを使用し、すべての言語でフィードバックを受け取ります。
最近の研究では、LMをオプティマイザーとして使用して、言語監督を解釈し、複雑な目的に従ってノンパラメトリック変数を更新します。
この調査では、このパラダイムを、言語監督の足場LMSのトレーニングと呼びます。
ノンパラメトリックトレーニングの重要な機能は、言語から学ぶ能力です。
パラメトリックトレーニングは、明確に定義された損失関数を使用して、デモンストレーション(監視された学習)、探索(強化学習)、または観察(監視されていない学習)からの学習に優れています。
言語ベースの最適化により、リッチ、解釈可能、表現力のある目的が可能になり、壊滅的な忘れや閉鎖モデルとの互換性をサポートするなどの問題を軽減します。
さらに、エージェントは、オフィスツールやソフトウェア開発のCopilotなどの実際のアプリケーションの同僚としてますます展開されています。
人間とAIの間で制御と意思決定が共有されるこれらの混合自動環境では、ユーザーはエラーを指摘するか、修正を提案します。
したがって、このリアルタイムの言語ベースのフィードバックから学習することで継続的に改善するエージェントについて説明し、この設定を言語監督からのストリーミング学習と呼びます。

要約(オリジナル)

This survey organizes the intricate literature on the design and optimization of emerging structures around post-trained LMs. We refer to this overarching structure as scaffolded LMs and focus on LMs that are integrated into multi-step processes with tools. We view scaffolded LMs as semi-parametric models wherein we train non-parametric variables, including the prompt, tools, and scaffold’s code. In particular, they interpret instructions, use tools, and receive feedback all in language. Recent works use an LM as an optimizer to interpret language supervision and update non-parametric variables according to intricate objectives. In this survey, we refer to this paradigm as training of scaffolded LMs with language supervision. A key feature of non-parametric training is the ability to learn from language. Parametric training excels in learning from demonstration (supervised learning), exploration (reinforcement learning), or observations (unsupervised learning), using well-defined loss functions. Language-based optimization enables rich, interpretable, and expressive objectives, while mitigating issues like catastrophic forgetting and supporting compatibility with closed-source models. Furthermore, agents are increasingly deployed as co-workers in real-world applications such as Copilot in Office tools or software development. In these mixed-autonomy settings, where control and decision-making are shared between human and AI, users point out errors or suggest corrections. Accordingly, we discuss agents that continuously improve by learning from this real-time, language-based feedback and refer to this setting as streaming learning from language supervision.

arxiv情報

著者 Matthieu Lin,Jenny Sheng,Andrew Zhao,Shenzhi Wang,Yang Yue,Victor Shea Jay Huang,Huan Liu,Jun Liu,Gao Huang,Yong-Jin Liu
発行日 2025-05-16 16:01:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク