Fine-Tuning Language Models Using Formal Methods Feedback

要約

事前トレーニングされた言語モデルは、計画と制御に有益な一般的な知識をエンコードしていますが、ドメイン固有のタスクに対して適切な制御ポリシーを生成できない可能性があります。
既存の微調整方法は人間のフィードバックを使用してこの制限に対処していますが、人間のフィードバックを入手するには多大な労力とコストがかかります。
私たちは、自律システムのアプリケーション向けに事前トレーニングされた言語モデルを微調整する完全に自動化されたアプローチを提案し、コストを削減しながら一般的な知識とドメイン固有の要件の間のギャップを埋めます。
この方法では、自然言語タスクの説明に基づいて、事前トレーニングされたモデルからオートマトンベースのコントローラーを合成します。
これらのコントローラーは、ワールド モデル内で個別に提供された仕様に対して検証可能です。ワールド モデルは抽象的なものであるか、高忠実度シミュレーターから取得できます。
望ましい仕様への適合性が高いコントローラーはより高いランクを獲得し、反復的な微調整プロセスを導きます。
私たちは、主に自動運転において、複数のタスクにわたる手法の有効性を実証する定量的な証拠を提供します。
結果は、コントローラーが満たす仕様の割合が 60% から 90% に向上したことを示しています。

要約(オリジナル)

Although pre-trained language models encode generic knowledge beneficial for planning and control, they may fail to generate appropriate control policies for domain-specific tasks. Existing fine-tuning methods use human feedback to address this limitation, however, sourcing human feedback is labor intensive and costly. We present a fully automated approach to fine-tune pre-trained language models for applications in autonomous systems, bridging the gap between generic knowledge and domain-specific requirements while reducing cost. The method synthesizes automaton-based controllers from pre-trained models guided by natural language task descriptions. These controllers are verifiable against independently provided specifications within a world model, which can be abstract or obtained from a high-fidelity simulator. Controllers with high compliance with the desired specifications receive higher ranks, guiding the iterative fine-tuning process. We provide quantitative evidences, primarily in autonomous driving, to demonstrate the method’s effectiveness across multiple tasks. The results indicate an improvement in percentage of specifications satisfied by the controller from 60% to 90%.

arxiv情報

著者 Yunhao Yang,Neel P. Bhatt,Tyler Ingebrand,William Ward,Steven Carr,Zhangyang Wang,Ufuk Topcu
発行日 2023-10-27 16:24:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.FL パーマリンク