Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks

要約

さまざまな算術タスクで GPT-4 を大幅に上回る、微調整された LLaMA モデルである Goat を紹介します。
合成的に生成されたデータセットで微調整された Goat は、BIG ベンチ算術サブタスクで最先端のパフォーマンスを実現します。
特に、ゼロショットの Goat-7B は、数ショットの PaLM-540B が達成する精度に匹敵するか、それを上回っています。
驚くべきことに、Goat は教師あり微調整だけで大量の加算と減算においてほぼ完璧な精度を達成できますが、これは Bloom、OPT、GPT-NeoX などの以前の事前トレーニング済み言語モデルではほぼ不可能でした。これは Goat の並外れたパフォーマンスのおかげであると考えています。
LLaMA による一貫した数値のトークン化。
大きな数の乗算や除算など、より困難なタスクに取り組むために、学習可能性に基づいてタスクを分類し、その後、基本的な算術を活用して、複数桁の乗算や除算などの学習不可能なタスクを一連の学習可能なタスクに分解するアプローチを提案します。
原則。
私たちはモデルのパフォーマンスを徹底的に検査し、提案した分解ステップの有効性を包括的に評価します。
さらに、Goat-7B は 24 GB VRAM GPU 上の LoRA を使用して簡単にトレーニングできるため、他の研究者の再現性が容易になります。
モデル、データセット、およびデータセット生成用の Python スクリプトをリリースします。

要約(オリジナル)

We introduce Goat, a fine-tuned LLaMA model that significantly outperforms GPT-4 on a range of arithmetic tasks. Fine-tuned on a synthetically generated dataset, Goat achieves state-of-the-art performance on BIG-bench arithmetic sub-task. In particular, the zero-shot Goat-7B matches or even surpasses the accuracy achieved by the few-shot PaLM-540B. Surprisingly, Goat can achieve near-perfect accuracy on large-number addition and subtraction through supervised fine-tuning only, which is almost impossible with previous pretrained language models, such as Bloom, OPT, GPT-NeoX, etc. We attribute Goat’s exceptional performance to LLaMA’s consistent tokenization of numbers. To tackle more challenging tasks like large-number multiplication and division, we propose an approach that classifies tasks based on their learnability, and subsequently decomposes unlearnable tasks, such as multi-digit multiplication and division, into a series of learnable tasks by leveraging basic arithmetic principles. We thoroughly examine the performance of our model, offering a comprehensive evaluation of the effectiveness of our proposed decomposition steps. Additionally, Goat-7B can be easily trained using LoRA on a 24GB VRAM GPU, facilitating reproducibility for other researchers. We release our model, dataset, and the Python script for dataset generation.

arxiv情報

著者 Tiedong Liu,Bryan Kian Hsiang Low
発行日 2023-05-23 16:20:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク