Better Zero-Shot Reasoning with Self-Adaptive Prompting

要約

最新の大規模言語モデル (LLM) は、多くの場合、人間と同様の段階的な推論を通じて、高度なタスクで優れた能力を実証しています。
これは、彼らの強力な少数およびゼロショット能力によって可能になります。彼らは、少数の手作りの完成した応答 (「文脈内の例」) から効果的に学習することができ、または特別に設計されたトリガーを通じて自発的に推論するよう促されます。
それにもかかわらず、いくつかの制限が観察されています。
まず、数ショット設定でのパフォーマンスはサンプルの選択に左右され、そのデザインには多大な人間の労力が必要です。
さらに、LLM の下流タスクが多様であることを考えると、タスクごとのラベルを手作りするのは困難または面倒な場合があります。
第 2 に、ゼロショット設定には手作りの必要はありませんが、LLM へのガイダンスが欠如しているため、そのパフォーマンスは制限されます。
これらの制限に対処するために、LLM 用の新しいプロンプト設計方法である一貫性ベースの自己適応プロンプティング (COSP) を提案します。
COSP は、手作りの応答やグラウンドトゥルースのラベルを必要とせず、一貫性、多様性、反復を組み合わせた慎重に設計された基準に基づいて、LLM ゼロショット出力からサンプルのセットを選択して構築します。
3 つの異なる LLM のゼロショット設定では、LLM 予測のみを使用すると、COSP はゼロショット ベースラインと比較してパフォーマンスを最大 15% 向上させ、さまざまな推論タスクで少数ショット ベースラインと同等またはそれを超えることを示します。

要約(オリジナル)

Modern large language models (LLMs) have demonstrated impressive capabilities at sophisticated tasks, often through step-by-step reasoning similar to humans. This is made possible by their strong few and zero-shot abilities — they can effectively learn from a handful of handcrafted, completed responses (‘in-context examples’), or are prompted to reason spontaneously through specially designed triggers. Nonetheless, some limitations have been observed. First, performance in the few-shot setting is sensitive to the choice of examples, whose design requires significant human effort. Moreover, given the diverse downstream tasks of LLMs, it may be difficult or laborious to handcraft per-task labels. Second, while the zero-shot setting does not require handcrafting, its performance is limited due to the lack of guidance to the LLMs. To address these limitations, we propose Consistency-based Self-adaptive Prompting (COSP), a novel prompt design method for LLMs. Requiring neither handcrafted responses nor ground-truth labels, COSP selects and builds the set of examples from the LLM zero-shot outputs via carefully designed criteria that combine consistency, diversity and repetition. In the zero-shot setting for three different LLMs, we show that using only LLM predictions, COSP improves performance up to 15% compared to zero-shot baselines and matches or exceeds few-shot baselines for a range of reasoning tasks.

arxiv情報

著者 Xingchen Wan,Ruoxi Sun,Hanjun Dai,Sercan O. Arik,Tomas Pfister
発行日 2023-05-23 14:27:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク