要約
コンピュータープログラミングの教科書とソフトウェアのドキュメントには、多くの場合、フローチャートが含まれており、アルゴリズムまたは手順の流れを説明しています。
最新のOCRエンジンは、多くの場合、これらのフローチャートにグラフィックスとしてタグ付けし、さらなる処理でそれらを無視します。
このホワイトペーパーでは、フローチャート画像を実行可能なPythonコードに変換することにより、マシンを解釈できるようにします。
この目的のために、最近の自然言語でのコード生成文献への成功に触発されて、私たちは新しい変圧器ベースのフレームワーク、つまりFloco-T5を紹介します。
私たちのモデルは、このタスクに適しています。これは、構文的に正しいコードを生成するために活用するプログラミング言語のセマンティクス、構造、およびパターンを効果的に学習できるためです。
また、タスク固有のプリトレーニング目標を使用して、多数のロジックプレゼンティング拡張コードサンプルを使用して、トレイン前のフロコ-T5を使用しました。
さらに、この問題の厳密な研究を実行するために、11,884のフローチャート画像と対応するPythonコードを含むTheFlocoデータセットを紹介します。
私たちの実験は有望な結果を示しており、Floco-T5はコード生成メトリックの関連する競争的ベースラインを明らかに上回っています。
データセットと実装を公開します。
要約(オリジナル)
Computer programming textbooks and software documentations often contain flowcharts to illustrate the flow of an algorithm or procedure. Modern OCR engines often tag these flowcharts as graphics and ignore them in further processing. In this paper, we work towards making flowchart images machine-interpretable by converting them to executable Python codes. To this end, inspired by the recent success in natural language to code generation literature, we present a novel transformer-based framework, namely FloCo-T5. Our model is well-suited for this task,as it can effectively learn semantics, structure, and patterns of programming languages, which it leverages to generate syntactically correct code. We also used a task-specific pre-training objective to pre-train FloCo-T5 using a large number of logic-preserving augmented code samples. Further, to perform a rigorous study of this problem, we introduce theFloCo dataset that contains 11,884 flowchart images and their corresponding Python codes. Our experiments show promising results, and FloCo-T5 clearly outperforms related competitive baselines on code generation metrics. We make our dataset and implementation publicly available.
arxiv情報
著者 | Shreya Shukla,Prajwal Gatti,Yogesh Kumar,Vikash Yadav,Anand Mishra |
発行日 | 2025-01-29 06:43:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google