要約
過去10年間で、機械学習とディープラーニングの分野、主に自然言語処理(NLP)の分野で行われている研究の量は劇的に増加した。ロジックの構築や問題解決といったプログラミング能力を開発する方法としてよく知られているのが、対戦型プログラミングだ。しかし、膨大な数の問題や、テーマ、難易度、出題される問題が多岐にわたるため、初心者はもちろん、ベテランのプログラマーでさえ、幅広い問題集を渡り歩くのは大変です。プログラマが自分の知識や興味に適した質問を見つけるのを助けるために、自動化された方法が必要です。これはテキスト分類を使用した質問の自動タグ付けを使用して行うことができます。テキストの分類は、自然言語処理の分野で広く研究されている重要なタスクの1つです。本論文では、テキスト分類技術を使用して、競争的プログラミング問題のドメインを決定する方法を提示する。LSTM、GRU、MLPを含む様々なモデルが実装されている。データセットは、主要な競技プログラミングウェブサイトであるCodeforcesからスクレイピングされたものである。合計2400の問題がスクレイピングされ、前処理され、我々はモデルのトレーニングとテストのデータセットとして使用した。MLP(Multi Layer Perceptron)を用いたモデルの最大精度は78.0%であった。
要約(オリジナル)
In the past decade, the amount of research being done in the fields of machine learning and deep learning, predominantly in the area of natural language processing (NLP), has risen dramatically. A well-liked method for developing programming abilities like logic building and problem solving is competitive programming. It can be tough for novices and even veteran programmers to traverse the wide collection of questions due to the massive number of accessible questions and the variety of themes, levels of difficulty, and questions offered. In order to help programmers find questions that are appropriate for their knowledge and interests, there is a need for an automated method. This can be done using automated tagging of the questions using Text Classification. Text classification is one of the important tasks widely researched in the field of Natural Language Processing. In this paper, we present a way to use text classification techniques to determine the domain of a competitive programming problem. A variety of models, including are implemented LSTM, GRU, and MLP. The dataset has been scraped from Codeforces, a major competitive programming website. A total of 2400 problems were scraped and preprocessed, which we used as a dataset for our training and testing of models. The maximum accuracy reached using our model is 78.0% by MLP(Multi Layer Perceptron).
arxiv情報
著者 | Taha Lokat,Divyam Prajapati,Shubhada Labde |
発行日 | 2023-08-03 16:39:02+00:00 |
arxivサイト | arxiv_id(pdf) |