Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification

要約

このケース スタディでは、実際の環境での職務分類のタスクを調査します。目標は、英語の求人情報が大卒または新卒レベルの職位に適しているかどうかを判断することです。
サポート ベクター マシン (SVM) などの従来のモデルや、DeBERTa などの最先端のディープ ラーニング手法などの教師ありアプローチを含む、テキスト分類への複数のアプローチを検討します。
それらを、少数ショット分類設定とゼロショット分類設定の両方で使用される大規模言語モデル (LLM) と比較します。
このタスクを達成するために、プロンプト エンジニアリングを採用しています。これは、LLM を目的の出力に導くプロンプトの設計を含む手法です。
具体的には、市販されている最先端の GPT-3.5 ベースの 2 つの言語モデル、text-davinci-003 と gpt-3.5-turbo のパフォーマンスを評価します。
また、迅速なエンジニアリングのさまざまな側面がモデルのパフォーマンスに与える影響について、詳細な分析を行います。
私たちの結果は、適切に設計されたプロンプトを使用すると、ゼロショット gpt-3.5-turbo 分類器が他のすべてのモデルよりも優れており、最良の教師ありアプローチと比較して精度 @ 95% 再現率が 6% 向上することを示しています。
さらに、プロンプトの文言は、モデルで適切な「推論」を引き出す上で重要な要素であり、プロンプトの一見マイナーな側面がモデルのパフォーマンスに大きく影響することがわかりました。

要約(オリジナル)

This case study investigates the task of job classification in a real-world setting, where the goal is to determine whether an English-language job posting is appropriate for a graduate or entry-level position. We explore multiple approaches to text classification, including supervised approaches such as traditional models like Support Vector Machines (SVMs) and state-of-the-art deep learning methods such as DeBERTa. We compare them with Large Language Models (LLMs) used in both few-shot and zero-shot classification settings. To accomplish this task, we employ prompt engineering, a technique that involves designing prompts to guide the LLMs towards the desired output. Specifically, we evaluate the performance of two commercially available state-of-the-art GPT-3.5-based language models, text-davinci-003 and gpt-3.5-turbo. We also conduct a detailed analysis of the impact of different aspects of prompt engineering on the model’s performance. Our results show that, with a well-designed prompt, a zero-shot gpt-3.5-turbo classifier outperforms all other models, achieving a 6% increase in Precision@95% Recall compared to the best supervised approach. Furthermore, we observe that the wording of the prompt is a critical factor in eliciting the appropriate ‘reasoning’ in the model, and that seemingly minor aspects of the prompt significantly affect the model’s performance.

arxiv情報

著者 Benjamin Clavié,Alexandru Ciceu,Frederick Naylor,Guillaume Soulié,Thomas Brightwell
発行日 2023-03-14 17:01:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク