Plant Species Recognition with Optimized 3D Polynomial Neural Networks and Variably Overlapping Time-Coherent Sliding Window

要約

最近、EAGL-I システムが開発され、農家や研究者が農業で AI 主導のソリューションを作成するために一般的に使用することを目的とした、大量のラベル付き植物データセットを迅速に作成できるようになりました。
その結果、その能力を実証するために、8つの植物種からなるサイズの異なる40,000枚の画像で構成される、公開されている植物種認識データセットがシステムで作成されました。
この論文では、可変サイズの画像で構成されるデータセットを、畳み込みニューラル ネットワークに適した固定サイズの 3D 表現に変換する、Variably Overlapping Time-Coherent Sliding Window (VOTCSW) と呼ばれる新しい方法を提案し、この表現が
データセットの画像を特定のサイズにサイズ変更するよりも有益です。
メソッドのユースケースとその固有のプロパティを理論的に形式化し、オーバーサンプリングとデータの正則化効果があることを証明しました。
VOTCSW メソッドを、1 次元多項式ニューラル ネットワークと呼ばれる最近提案された機械学習モデルの 3D 拡張と組み合わせることで、作成されたデータセットで 99.9% の最先端の精度を達成するモデルを作成することができました。
ResNet や Inception などのよく知られたアーキテクチャを凌駕する EAGL-I システム。
さらに、事前トレーニング済みの N 次元多項式ニューラル ネットワークの次数削減を可能にし、パフォーマンスを変更せずに圧縮するヒューリスティック アルゴリズムを作成しました。これにより、モデルがより高速かつ軽量になります。
さらに、現在利用可能なデータセットは、トレーニング セットとテスト セットの間のクラスの不均衡が大きいため、現在の形式では機械学習に使用できないことがわかりました。
したがって、特定の前処理とモデル開発フレームワークを作成して、精度を 49.23% から 99.9% に改善することができました。

要約(オリジナル)

Recently, the EAGL-I system was developed to rapidly create massive labeled datasets of plants intended to be commonly used by farmers and researchers to create AI-driven solutions in agriculture. As a result, a publicly available plant species recognition dataset composed of 40,000 images with different sizes consisting of 8 plant species was created with the system in order to demonstrate its capabilities. This paper proposes a novel method, called Variably Overlapping Time-Coherent Sliding Window (VOTCSW), that transforms a dataset composed of images with variable size to a 3D representation with fixed size that is suitable for convolutional neural networks, and demonstrates that this representation is more informative than resizing the images of the dataset to a given size. We theoretically formalized the use cases of the method as well as its inherent properties and we proved that it has an oversampling and a regularization effect on the data. By combining the VOTCSW method with the 3D extension of a recently proposed machine learning model called 1-Dimensional Polynomial Neural Networks, we were able to create a model that achieved a state-of-the-art accuracy of 99.9% on the dataset created by the EAGL-I system, surpassing well-known architectures such as ResNet and Inception. In addition, we created a heuristic algorithm that enables the degree reduction of any pre-trained N-Dimensional Polynomial Neural Network and which compresses it without altering its performance, thus making the model faster and lighter. Furthermore, we established that the currently available dataset could not be used for machine learning in its present form, due to a substantial class imbalance between the training set and the test set. Hence, we created a specific preprocessing and a model development framework that enabled us to improve the accuracy from 49.23% to 99.9%.

arxiv情報

著者 Habib Ben Abdallah,Christopher J. Henry,Sheela Ramanna
発行日 2022-08-29 16:36:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク