TaskComplexity: A Dataset for Task Complexity Classification with In-Context Learning, FLAN-T5 and GPT-4o Benchmarks

要約

このペーパーでは、プログラミング タスクを分類して専門家に割り当てるという課題に取り組みます。このプロセスには通常、多大な労力、時間、コストが必要です。
この問題に取り組むために、さまざまな Web サイトからタスクを抽出して、合計 4,112 のプログラミング タスクを含む新しいデータセットが作成されました。
Web スクレイピング技術を使用して、プログラミングの問題のこのデータセットを体系的に収集しました。
特定の HTML タグを追跡して、タイトル、問題の説明、入出力、例、問題クラス、複雑さスコアなど、各問題の主要な要素を抽出しました。
データセットの例は、含まれるタスクの多様性と複雑さを説明するために付録に記載されています。
データセットの有効性は 2 つのアプローチを使用して評価およびベンチマークされています。
1 つ目のアプローチでは、データセット上の FLAN-T5 小型モデルを微調整する必要がありました。2 つ目のアプローチでは、GPT-4o mini を使用したインコンテキスト学習 (ICL) を使用しました。
パフォーマンスは、精度、再現率、適合率、F1 スコアといった標準的な指標を使用して評価されました。
結果は、GPT-4o-mini によるインコンテキスト学習が FLAN-T5 モデルよりも優れていることを示しました。

要約(オリジナル)

This paper addresses the challenge of classifying and assigning programming tasks to experts, a process that typically requires significant effort, time, and cost. To tackle this issue, a novel dataset containing a total of 4,112 programming tasks was created by extracting tasks from various websites. Web scraping techniques were employed to collect this dataset of programming problems systematically. Specific HTML tags were tracked to extract key elements of each issue, including the title, problem description, input-output, examples, problem class, and complexity score. Examples from the dataset are provided in the appendix to illustrate the variety and complexity of tasks included. The dataset’s effectiveness has been evaluated and benchmarked using two approaches; the first approach involved fine-tuning the FLAN-T5 small model on the dataset, while the second approach used in-context learning (ICL) with the GPT-4o mini. The performance was assessed using standard metrics: accuracy, recall, precision, and F1-score. The results indicated that in-context learning with GPT-4o-mini outperformed the FLAN-T5 model.

arxiv情報

著者 Areeg Fahad Rasheed,M. Zarkoosh,Safa F. Abbas,Sana Sabah Al-Azzawi
発行日 2024-09-30 11:04:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク