要約
ChatGPT や PaLM などの大規模言語モデル (LLM) は、さまざまな言語理解および生成タスクにおいて顕著なパフォーマンスを示していますが、複雑な推論や複雑な知識の活用における能力は依然として人間レベルの熟練度には達していません。
最近の研究では、LLM を目的の出力を生成するように操作する際のプロンプトの有効性が確立されています。
これらの洞察に基づいて、大規模な事前トレーニング済み言語モデルの可能性を活用して、LLM のパフォーマンスを反復的に向上させる新しいフレームワークを導入します。
私たちのフレームワークには、\textit{Normal CoT}、\textit{Convincer}、\textit{Answerer} の 3 つのコンポーネントが組み込まれています。
典型的な数ショットの思考連鎖プロンプトの出力を処理し、応答の正しさを評価し、答えを精査し、推論を洗練させて、最終的に新しい解決策を生成します。
さまざまな問題に関する 7 つのデータセットに関する実験結果は、Self-Convince フレームワークの有効性を検証し、ベースラインと比較して大幅な改善を達成しました。
この研究は、事前トレーニングされた言語モデルと、調整されたプロンプトおよび反復的な改良プロセスを統合して、複雑なタスクにおけるパフォーマンスを向上させることに焦点を当てた、急成長している研究群に貢献します。
要約(オリジナル)
While large language models (LLMs) such as ChatGPT and PaLM have demonstrated remarkable performance in various language understanding and generation tasks, their capabilities in complex reasoning and intricate knowledge utilization still fall short of human-level proficiency. Recent studies have established the effectiveness of prompts in steering LLMs towards generating desired outputs. Building on these insights, we introduce a novel framework that harnesses the potential of large-scale pre-trained language models, to iteratively enhance performance of the LLMs. Our framework incorporates three components: \textit{Normal CoT}, a \textit{Convincer}, and an \textit{Answerer}. It processes the output of a typical few-shot chain-of-thought prompt, assesses the correctness of the response, scrutinizes the answer, refines the reasoning, and ultimately produces a new solution. Experimental results on the 7 datasets of miscellaneous problems validate the efficacy of the Self-Convince framework, achieving substantial improvements compared to the baselines. This study contributes to the burgeoning body of research focused on integrating pre-trained language models with tailored prompts and iterative refinement processes to augment their performance in complex tasks.
arxiv情報
著者 | Haodi Zhang,Min Cai,Xinhe Zhang,Chen Jason Zhang,Rui Mao,Kaishun Wu |
発行日 | 2023-10-10 15:03:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google