TASTY: A Transformer based Approach to Space and Time complexity

要約

タイトル:TASTY: 時空間複雑度に基づくTransformerアプローチ

要約:
– 「Code based Language Models (LMs)」は、コードの洗練、コードの自動完成、コードの生成など、ソフトウェアエンジニアリングにおいて非常に有望な結果を示しています。
– しかし、コードからの時間と空間の複雑度分類のタスクは、データセットの欠如により広範囲に探索されていないため、Javaに制限されていました。
– このプロジェクトでは、PythonとC++のデータセットを含む複数言語のコードスニペットのラベル付きデータセットを作成することによって、これらのギャップを埋めることを目指しています。
– 既存の時間複雑度計算ライブラリとツールが適用されるのは限られた用途に限定されているため、ルールベースのシステムの欠如は、最近提案された数多くのコードベースのLMのアプリケーションを促しました。
– LMsの最大シーケンス長を増やすことと無用なコードの除去の効果を示し、コードから空間複雑度を見つけるためにLMsを使用することを提案します。
– さらに、クロス言語転移と呼ばれる新しいコード理解タスクを導入し、1つの言語でLMを微調整し、別の言語で推論を実行します。
– 最後に、私たちは私たちのLMの計算ヘッドのアテンションフィードの活性化を可視化するために、Non-negative Matrix Factorization(NMF)を使用して、結果を解釈しました。

要約(オリジナル)

Code based Language Models (LMs) have shown very promising results in the field of software engineering with applications such as code refinement, code completion and generation. However, the task of time and space complexity classification from code has not been extensively explored due to a lack of datasets, with prior endeavors being limited to Java. In this project, we aim to address these gaps by creating a labelled dataset of code snippets spanning multiple languages (Python and C++ datasets currently, with C, C#, and JavaScript datasets being released shortly). We find that existing time complexity calculation libraries and tools only apply to a limited number of use-cases. The lack of a well-defined rule based system motivates the application of several recently proposed code-based LMs. We demonstrate the effectiveness of dead code elimination and increasing the maximum sequence length of LMs. In addition to time complexity, we propose to use LMs to find space complexities from code, and to the best of our knowledge, this is the first attempt to do so. Furthermore, we introduce a novel code comprehension task, called cross-language transfer, where we fine-tune the LM on one language and run inference on another. Finally, we visualize the activation of the attention fed classification head of our LMs using Non-negative Matrix Factorization (NMF) to interpret our results.

arxiv情報

著者 Kaushik Moudgalya,Ankit Ramakrishnan,Vamsikrishna Chemudupati,Xing Han Lu
発行日 2023-05-10 03:08:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.SE パーマリンク