OPT-R: Exploring the Role of Explanations in Finetuning and Prompting for Reasoning Skills of Large Language Models

要約

この論文では、大規模言語モデル (LLM) の推論機能について、特にそのようなモデルの代表である Open Pretrained Transformers (OPT) モデルに焦点を当てて徹底的に調査します。
私たちの研究では、慎重に精選された推論コーパスで 3 つの異なるサイズの OPT を微調整する必要があり、その結果、説明なしで微調整された OPT-R と、説明付きで微調整された OPT-RE の 2 セットの微調整モデルが得られます。
次に、SUPER-NATURALINSTRUCTIONS ベンチマークから抽出された 57 のドメイン外タスクに関するすべてのモデルを評価し、3 つのプロンプト手法を利用して 26 の異なる推論スキルをカバーします。
27 の構成と 6,156 のテスト評価の包括的なグリッドを通じて、さまざまな推論スキルにおける説明の役割を理解するための微調整、プロンプト、スケールの次元を調査します。
私たちの調査結果では、少数ショットのサンプルに説明があることは、モデルが微調整されている場合にはモデルのパフォーマンスに重大な影響を及ぼさない一方、微調整されていない対応物にはプラスの影響を与えることが明らかになりました。
さらに、プロンプトと微調整の際にそれぞれ説明を組み込むことで、分類精度がわずかながら一貫して向上していることが観察されました。
最後に、数値的推論 (+20.4%) や類推 (+13.9%) など、微調整やプロンプト中に説明を組み込むことで最もメリットが得られるスキルはどれか、また無視できるほどの効果またはマイナスの効果を示すスキルについての洞察を提供します。

要約(オリジナル)

In this paper, we conduct a thorough investigation into the reasoning capabilities of Large Language Models (LLMs), focusing specifically on the Open Pretrained Transformers (OPT) models as a representative of such models. Our study entails finetuning three different sizes of OPT on a carefully curated reasoning corpus, resulting in two sets of finetuned models: OPT-R, finetuned without explanations, and OPT-RE, finetuned with explanations. We then evaluate all models on 57 out-of-domain tasks drawn from the SUPER-NATURALINSTRUCTIONS benchmark, covering 26 distinct reasoning skills, utilizing three prompting techniques. Through a comprehensive grid of 27 configurations and 6,156 test evaluations, we investigate the dimensions of finetuning, prompting, and scale to understand the role of explanations on different reasoning skills. Our findings reveal that having explanations in the fewshot exemplar has no significant impact on the model’s performance when the model is finetuned, while positively affecting the non-finetuned counterpart. Moreover, we observe a slight yet consistent increase in classification accuracy as we incorporate explanations during prompting and finetuning, respectively. Finally, we offer insights on which skills benefit the most from incorporating explanations during finetuning and prompting, such as Numerical (+20.4%) and Analogical (+13.9%) reasoning, as well as skills that exhibit negligible or negative effects.

arxiv情報

著者 Badr AlKhamissi,Siddharth Verma,Ping Yu,Zhijing Jin,Asli Celikyilmaz,Mona Diab
発行日 2023-10-24 13:38:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク