Speak Like a Native: Prompting Large Language Models in a Native Style

要約

既存の研究では、即時エンジニアリングが大規模言語モデル (LLM) のパフォーマンスに大きな影響を与えることがわかっています。
人気のプロンプト エンジニアリング手法としての思考連鎖 (CoT) は、推論ステップを含むコンテキスト内の例を使用する LLM を促しました。
現在の研究では、数ショットの CoT サンプルは通常、人間によって手作りされています。
ただし、コンテキスト内サンプルのテキスト スタイルが LLM の出力にどのような影響を与えるかについては、まだ調査が不十分なままです。
この論文では、コンテキスト内の例を LLM のネイティブ スタイルに合わせることで LLM の推論能力を向上させる、\textbf{AlignCoT} という名前の斬新で効果的なアプローチを紹介します。
「ネイティブ」とは、オリジナルのゼロショット シナリオによって調査できる LLM の固有の特徴的なスタイルを指します。
AlignCoT は他のプロンプト エンジニアリング手法と直交しているため、最先端の技術と簡単に組み合わせて LLM のパフォーマンスをさらに向上させることができます。
私たちは、いくつかのベンチマークに関して広範かつ包括的な実験を実施しています。
経験的な結果は、AlignCoT がコンテキスト内で慎重に手作りされたサンプルよりもパフォーマンスが大幅に向上することを示しています。
たとえば、GPT-3.5 ターボでは、GSM8K で +2.5\% の改善が観察されました。
さらに、当社の AlignCoT は、他の最先端のプロンプト エンジニアリング手法と組み合わせることで、一貫してパフォーマンスを向上させます。
ソース コードとデータセットは \href{https://github.com/yangzhch6/AlignCoT}{https://github.com/yangzhch6/AlignCoT} で入手できます。

要約(オリジナル)

Existing work has found that the prompt engineering heavily influences the performance of large language models (LLMs). Chain-of-thought (CoT), as a popular prompt engineering technique, prompted LLMs using in-context examples with reasoning steps. In current studies, the few-shot examples of CoT are generally handcrafted by humans. However, how the text style of in-context examples influence the outputs of LLMs still remains under-explored. This paper presents a novel and effective approach, named \textbf{AlignCoT}, to improve the reasoning capability of LLMs by aligning the in-context examples with the native style of LLMs. “Native” refers to the inherent characteristic style of LLMs which can be probed by original zero-shot scenarios. AlignCoT is orthogonal to other prompt engineering methods, making it easy to combine with state-of-the-art techniques to further improve the LLMs’ performance. We conduct extensive and comprehensive experiments on several benchmarks. The empirical results demonstrate that our AlignCoTsignificantly improves performance over the carefully handcrafted in-context examples. For instance, with GPT-3.5-turbo, we observed a +2.5\% improvement on GSM8K. Furthermore, our AlignCoT consistently improve the performance when combined with other state-of-the-art prompt engineering methods. The source code and dataset will be available at \href{https://github.com/yangzhch6/AlignCoT}{https://github.com/yangzhch6/AlignCoT}.

arxiv情報

著者 Zhicheng Yang,Yiwei Wang,Yinya Huang,Jing Xiong,Xiaodan Liang,Jing Tang
発行日 2023-11-22 17:24:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク