要約
最近、ChatGPT によって NLP への関心が高まっています。
ChatGPT は、かなりの規模のトランスフォーマーベースの生成言語モデルであり、自然言語に基づいてさまざまなタスクを実行する際の多用途性を示します。
それにもかかわらず、大規模な言語モデルは、推論を必要とする数学の問題を解決する際にパフォーマンスが低いことがよくあります。
これまでの研究では、推論能力を高める上での思考連鎖プロンプトの有効性が実証されています。
現在、論理言語である Prolog コードを生成するモデルを微調整し、その後これらのコードをコンパイラーに渡すことで精度がさらに向上するかどうかを調査することを目的としています。
したがって、ベースライン モデルとして LLaMA7B を微調整する思考連鎖を採用し、Prolog コード、Prolog コード + 思考連鎖、および思考連鎖 + Prolog の生成用に他の微調整 LLaMA7B モデルを開発します。
それぞれコード。
結果は、Prolog 生成モデルがパフォーマンスのベースラインを上回っているのに対し、組み合わせ生成モデルでは大幅な改善が見られないことを明らかにしています。
GSM8K に基づく Prolog コーパスと、それに対応して微調整された LLaMA7B に基づく Prolog 生成モデルが研究コミュニティにリリースされています。
要約(オリジナル)
Recently, there has been a surge in interest in NLP driven by ChatGPT. ChatGPT, a transformer-based generative language model of substantial scale, exhibits versatility in performing various tasks based on natural language. Nevertheless, large language models often exhibit poor performance in solving mathematics questions that require reasoning. Prior research has demonstrated the effectiveness of chain-of-thought prompting in enhancing reasoning capabilities. Now, we aim to investigate whether fine-tuning a model for the generation of Prolog codes, a logic language, and subsequently passing these codes to a compiler can further improve accuracy. Consequently, we employ chain-of-thought to fine-tune LLaMA7B as a baseline model and develop other fine-tuned LLaMA7B models for the generation of Prolog code, Prolog code + chain-of-thought, and chain-of-thought + Prolog code, respectively. The results reveal that the Prolog generation model surpasses the baseline in performance, while the combination generation models do not yield significant improvements. The Prolog corpus based on GSM8K and the correspondingly finetuned Prolog generation model based on LLaMA7B are released to the research community.
arxiv情報
著者 | Xiaocheng Yang,Yik-Cheung Tam |
発行日 | 2023-09-07 12:10:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google