Navigating Prompt Complexity for Zero-Shot Classification: A Study of Large Language Models in Computational Social Science

要約

命令調整された大規模言語モデル (LLM) は、優れた言語理解力と、特定の命令に従った応答を生成する能力を示しています。
ただし、これらのモデルのトレーニングに関連する計算需要のため、アプリケーションは多くの場合ゼロショット設定に依存します。
この論文では、計算社会科学分類タスクのコンテキストで、公的にアクセス可能な 2 つの LLM、ChatGPT と OpenAssistant のゼロショット パフォーマンスを評価し、同時にさまざまなプロンプト戦略の効果も調査します。
私たちの実験では、ラベル定義をプロンプトに組み込むこと、ラベル名の同義語を使用することの影響、基礎モデルのトレーニング中に過去の記憶を統合することの影響など、プロンプトの複雑さの影響を考慮しています。
この調査結果は、ゼロショット設定では、現在の LLM が、より小型で微調整されたベースライン変圧器モデル (BERT など) の性能に匹敵できないことを示しています。
さらに、さまざまなプロンプト戦略が分類精度に大きな影響を与える可能性があり、精度と F1 スコアのばらつきが 10% を超える可能性があることがわかりました。

要約(オリジナル)

Instruction-tuned Large Language Models (LLMs) have exhibited impressive language understanding and the capacity to generate responses that follow specific instructions. However, due to the computational demands associated with training these models, their applications often rely on zero-shot settings. In this paper, we evaluate the zero-shot performance of two publicly accessible LLMs, ChatGPT and OpenAssistant, in the context of Computational Social Science classification tasks, while also investigating the effects of various prompting strategies. Our experiment considers the impact of prompt complexity, including the effect of incorporating label definitions into the prompt, using synonyms for label names, and the influence of integrating past memories during the foundation model training. The findings indicate that in a zero-shot setting, the current LLMs are unable to match the performance of smaller, fine-tuned baseline transformer models (such as BERT). Additionally, we find that different prompting strategies can significantly affect classification accuracy, with variations in accuracy and F1 scores exceeding 10%.

arxiv情報

著者 Yida Mu,Ben P. Wu,William Thorne,Ambrose Robinson,Nikolaos Aletras,Carolina Scarton,Kalina Bontcheva,Xingyi Song
発行日 2023-05-23 17:48:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク