Optimizing Language Model’s Reasoning Abilities with Weak Supervision

要約

大規模言語モデル (LLM) は複雑なクエリの処理に習熟していることを実証していますが、これまでの研究の多くは人間の専門家による広範囲に注釈が付けられたデータセットに依存していました。
ただし、完全に監視されたアノテーションへの依存は、特にモデルとデータの要件が増大するにつれて、スケーラビリティの課題を引き起こします。
これを軽減するために、私たちは最小限の人間の監督で LLM の推論能力を強化する可能性を探ります。
この作業では、注釈付きの質問の小さなコレクションを使用したモデルの教師あり微調整 (SFT) から始まる自己強化を導入します。
次に、ラベルのない質問に対する SFT と未調整のモデルからの応答の違いから学習することで、LLM を反復的に改善します。
私たちのアプローチは、人間による広範な注釈付きの説明に大きく依存することなく、効率的なアプローチを提供します。
ただし、現在の推論ベンチマークには通常、黄金参照の回答または論拠のみが含まれています。
したがって、我々は、頭の体操、パズル、なぞなぞ、パラジャンブル、重要な推論タスクなど、さまざまな領域にわたる 25,147 の複雑な質問、回答、および人間が生成した論拠で構成される、弱教師ベンチマークである \textsc{PuzzleBen} を提示します。
私たちのデータセットのユニークな点は、注釈のない質問が 10,000 件含まれていることです。これにより、LLM の推論能力を向上させるために、より少ない超大規模データの利用を検討できるようになります。
私たちの実験は、\textsc{PuzzleBen} の重要性と、将来の取り組みにおける有望な方向性としての私たちの方法論の有効性を強調しています。
私たちのデータセットとコードは、まもなく \texttt{匿名リンク} で公開される予定です。

要約(オリジナル)

While Large Language Models (LLMs) have demonstrated proficiency in handling complex queries, much of the past work has depended on extensively annotated datasets by human experts. However, this reliance on fully-supervised annotations poses scalability challenges, particularly as models and data requirements grow. To mitigate this, we explore the potential of enhancing LLMs’ reasoning abilities with minimal human supervision. In this work, we introduce self-reinforcement, which begins with Supervised Fine-Tuning (SFT) of the model using a small collection of annotated questions. Then it iteratively improves LLMs by learning from the differences in responses from the SFT and unfinetuned models on unlabeled questions. Our approach provides an efficient approach without relying heavily on extensive human-annotated explanations. However, current reasoning benchmarks typically only include golden-reference answers or rationales. Therefore, we present \textsc{PuzzleBen}, a weakly supervised benchmark that comprises 25,147 complex questions, answers, and human-generated rationales across various domains, such as brainteasers, puzzles, riddles, parajumbles, and critical reasoning tasks. A unique aspect of our dataset is the inclusion of 10,000 unannotated questions, enabling us to explore utilizing fewer supersized data to boost LLMs’ inference capabilities. Our experiments underscore the significance of \textsc{PuzzleBen}, as well as the effectiveness of our methodology as a promising direction in future endeavors. Our dataset and code will be published soon on \texttt{Anonymity Link}.

arxiv情報

著者 Yongqi Tong,Sizhe Wang,Dawei Li,Yifan Wang,Simeng Han,Zi Lin,Chengsong Huang,Jiaxin Huang,Jingbo Shang
発行日 2024-05-07 07:39:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク