An Empirical Study on How the Developers Discussed about Pandas Topics

要約

タイトル: デベロッパーがPandasのトピックをどのように議論したかの実証的研究

要約:
– PandasはPythonプログラミング言語で使用されるデータ分析用のソフトウェアライブラリと定義されている。
– Pandasは、高速で、使いやすく、オープンソースのデータ分析ツールであるため、ソフトウェア開発、機械学習、コンピュータビジョン、自然言語処理、ロボティクスなど、さまざまなソフトウェアエンジニアリングプロジェクトで急速に使用されており、多くの開発者がPandasに関心を持っている。
– Stack Overflow(SO)のようなオンライン開発者フォーラムで、Pandasに関する多くの議論が支配的になっているため、開発者による大量の議論が見られる。このような議論は、Pandasライブラリの人気と、Pandasトピックの重要性、普及率、難易度を理解するのに役立つ。
– この研究論文の主な目的は、Pandasトピックの人気と難易度を調べることである。このため、Pandasトピックに関連するSO投稿が収集され、投稿のテキストコンテンツに対してトピックモデリングが行われた。26のトピックが見つかり、さらに5つのカテゴリに分類された。開発者は、SOでエラーと例外処理、可視化、外部サポート、データフレーム、最適化に関する多様なPandasトピックについて議論していることがわかった。
– さらに、事前定義された時系列に沿ってトピックの議論を分析したトレンドチャートが生成された。
– この論文の結果は、開発者、教育者、学習者を支援するための手掛かりを提供することができる。たとえば、初心者の開発者は、モデルを開発するのに必要な最も重要なPandasトピックを学ぶことができる。教育者は、学習者にとって難しいと思われるトピックを理解し、それを理解できるようにする異なるチュートリアルを作成できる。この実証的研究により、開発者のPandasトピックへの好みを、彼らのSO投稿を処理することで理解することができる。

要約(オリジナル)

Pandas is defined as a software library which is used for data analysis in Python programming language. As pandas is a fast, easy and open source data analysis tool, it is rapidly used in different software engineering projects like software development, machine learning, computer vision, natural language processing, robotics, and others. So a huge interests are shown in software developers regarding pandas and a huge number of discussions are now becoming dominant in online developer forums, like Stack Overflow (SO). Such discussions can help to understand the popularity of pandas library and also can help to understand the importance, prevalence, difficulties of pandas topics. The main aim of this research paper is to find the popularity and difficulty of pandas topics. For this regard, SO posts are collected which are related to pandas topic discussions. Topic modeling are done on the textual contents of the posts. We found 26 topics which we further categorized into 5 board categories. We observed that developers discuss variety of pandas topics in SO related to error and excepting handling, visualization, External support, dataframe, and optimization. In addition, a trend chart is generated according to the discussion of topics in a predefined time series. The finding of this paper can provide a path to help the developers, educators and learners. For example, beginner developers can learn most important topics in pandas which are essential for develop any model. Educators can understand the topics which seem hard to learners and can build different tutorials which can make that pandas topic understandable. From this empirical study it is possible to understand the preferences of developers in pandas topic by processing their SO posts

arxiv情報

著者 Sajib Kumar Saha Joy,Farzad Ahmed,Al Hasib Mahamud,Nibir Chandra Mandal
発行日 2023-05-10 16:52:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.IR, cs.SE パーマリンク