LangProp: A code optimization framework using Language Models applied to driving

要約

LangProp は、教師あり/強化学習設定で大規模言語モデル (LLM) によって生成されたコードを反復的に最適化するためのフレームワークです。
LLM は賢明なソリューションをゼロショットで生成できますが、ソリューションは次善であることがよくあります。
特にコード生成タスクの場合、最初のコードが特定のエッジケースで失敗する可能性があります。
LangProp は、入出力ペアのデータセットのコード パフォーマンスを自動的に評価し、例外をキャッチして、結果をトレーニング ループ内の LLM にフィードバックします。これにより、LLM は生成するコードを反復的に改善できます。
このコード最適化手順にメトリクスおよびデータ駆動型のトレーニング パラダイムを採用することで、模倣学習、DAgger、強化学習などの従来の機械学習手法から得られた結果を簡単に適応させることができます。
私たちは、CARLA における自動運転のための自動コード最適化の最初の概念実証を実証し、LangProp がメトリクスおよびデータ駆動型の方法で検証および改善できる、解釈可能で透過的な運転ポリシーを生成できることを示しました。
私たちのコードはオープンソース化され、https://github.com/shuishida/LangProp から入手できます。

要約(オリジナル)

LangProp is a framework for iteratively optimizing code generated by large language models (LLMs) in a supervised/reinforcement learning setting. While LLMs can generate sensible solutions zero-shot, the solutions are often sub-optimal. Especially for code generation tasks, it is likely that the initial code will fail on certain edge cases. LangProp automatically evaluates the code performance on a dataset of input-output pairs, as well as catches any exceptions, and feeds the results back to the LLM in the training loop, so that the LLM can iteratively improve the code it generates. By adopting a metric- and data-driven training paradigm for this code optimization procedure, one could easily adapt findings from traditional machine learning techniques such as imitation learning, DAgger, and reinforcement learning. We demonstrate the first proof of concept of automated code optimization for autonomous driving in CARLA, showing that LangProp can generate interpretable and transparent driving policies that can be verified and improved in a metric- and data-driven way. Our code will be open-sourced and is available at https://github.com/shuishida/LangProp.

arxiv情報

著者 Shu Ishida,Gianluca Corrado,George Fedoseev,Hudson Yeo,Lloyd Russell,Jamie Shotton,João F. Henriques,Anthony Hu
発行日 2024-01-18 18:52:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SE パーマリンク