Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning CodeLLMs

要約

大規模言語モデル (LLM) は、ドメイン固有のロボット アプリケーション プログラミング インターフェイス (API) を使用して、自然言語からロボット プログラムを生成する際に大きな期待を寄せています。
ただし、独自の LLM とより小規模なオープンウェイト LLM との間のパフォーマンスの差は依然として大きいです。
これにより、ドメイン固有のロボット プログラムを生成するために、より小型のオープンウェイト LLM を微調整して、独自の LLM とのパフォーマンスのギャップを埋めることができるでしょうか?という疑問が生じます。
Self-Instruct は、多様なトレーニング データのセットを生成することで有望なソリューションですが、これらのプログラムの正確性を検証することはできません。
対照的に、明確に定義された世界を持つロボット シミュレーターは実行エラーを特定できますが、検証できるプログラムの多様性は制限されます。
この作業では、両方の長所をもたらす Robo-Instruct を紹介します。これは、シミュレーター ベースのチェックの正確性を提供しながら、Self-Instruct の多様性を促進します。
Robo-Instruct は、チェック対象のプログラムに関連するプロパティを推論し、それに応じてアクションをシミュレートすることにより、一貫した世界状態をオンザフライで合成する RoboSim を導入します。
さらに、Self-Instruct によって生成された命令とプログラムは、命令によって暗示されるステップがプログラムに欠落しているなど、微妙に一貫性がない場合があります。
Robo-Instruct はさらに、生成されたプログラムの実際の結果を反映するようにタスク命令を改訂する命令プログラム調整手順である InstAlign を使用してこの問題に対処します。
いくつかのシード タスクの説明とロボット API があれば、Robo-Instruct は小さな無重みモデルのみを使用してトレーニング データセットを生成できます。
このデータセットを使用して小規模なオープンウェイト言語モデルを微調整することで、GPT-3.5-Turbo や Gemini-Pro などのいくつかの独自の LLM のパフォーマンスに匹敵するか、さらにはそれを超えることができます。

要約(オリジナル)

Large language models (LLMs) have shown great promise at generating robot programs from natural language given domain-specific robot application programming interfaces (APIs). However, the performance gap between proprietary LLMs and smaller open-weight LLMs remains wide. This raises a question: Can we fine-tune smaller open-weight LLMs for generating domain-specific robot programs to close the performance gap with proprietary LLMs? While Self-Instruct is a promising solution by generating a diverse set of training data, it cannot verify the correctness of these programs. In contrast, a robot simulator with a well-defined world can identify execution errors but limits the diversity of programs that it can verify. In this work, we introduce Robo-Instruct, which brings the best of both worlds — it promotes the diversity of Self-Instruct while providing the correctness of simulator-based checking. Robo-Instruct introduces RoboSim to synthesize a consistent world state on the fly by inferring properties relevant to the program being checked, and simulating actions accordingly. Furthermore, the instructions and programs generated by Self-Instruct may be subtly inconsistent — such as the program missing a step implied by the instruction. Robo-Instruct further addresses this with InstAlign, an instruction-program alignment procedure that revises the task instruction to reflect the actual results of the generated program. Given a few seed task descriptions and the robot APIs, Robo-Instruct is capable of generating a training dataset using only a small open-weight model. This dataset can then be used to fine-tune small open-weight language models, enabling them to match or even exceed the performance of several proprietary LLMs, such as GPT-3.5-Turbo and Gemini-Pro.

arxiv情報

著者 Zichao Hu,Junyi Jessy Li,Arjun Guha,Joydeep Biswas
発行日 2024-05-30 15:47:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.RO パーマリンク