Ladder Bottom-up Convolutional Bidirectional Variational Autoencoder for Image Translation of Dotted Arabic Expiration Dates

要約

この論文では、エンコーダおよびデコーダ用のラダーボトムアップ畳み込み双方向変分オートエンコーダ (LCBVAE) アーキテクチャのアプローチを提案します。このアーキテクチャは、アラビア語の点線の有効期限を塗りつぶされた有効期限に再構成することによって、点線のアラビア語の有効期限の画像変換でトレーニングされます。

私たちは、畳み込み再帰型ニューラル ネットワーク CRNN モデルのカスタマイズおよび適応バージョンを採用して、特定の要件を満たし、コンテキスト内でのパフォーマンスを向上させました。その後、2019 年から 2027 年の塗りつぶされた画像を使用してカスタム CRNN モデルをトレーニングして、
有効期限を確認し、有効期限認識に関する LCBVAE のモデル パフォーマンスを評価します。
その後、(LCBVAE+CRNN) のパイプラインを自動仕分けシステムに統合して、製造段階で有効期限を抽出し、それに応じて製品を仕分けることができます。
さらに、販売者にとって時間のかかる非効率的な有効期限の手動入力を克服できます。
点線のアラビア語有効期限画像が入手できないため、合成画像の生成用にアラビア語のドット マトリクス True Type フォント (TTF) を作成しました。
60,000 枚の画像の非現実的な合成日付でモデルをトレーニングし、yyyy/mm/dd で表される 2019 年から 2027 年までの 3000 枚の画像の現実的な合成日付でテストを実行しました。
私たちの研究では、画像翻訳と同様に、下流の転移学習タスクでサイズを1024まで増加させた場合の一般化の改善による潜在ボトルネック層の重要性を実証しました。
提案されたアプローチは、画像の翻訳と再構成などの下流の学習タスクに一般化できる LCBVAE アーキテクチャを使用して、画像の翻訳で 97% の精度を達成しました。

要約(オリジナル)

This paper proposes an approach of Ladder Bottom-up Convolutional Bidirectional Variational Autoencoder (LCBVAE) architecture for the encoder and decoder, which is trained on the image translation of the dotted Arabic expiration dates by reconstructing the Arabic dotted expiration dates into filled-in expiration dates. We employed a customized and adapted version of Convolutional Recurrent Neural Network CRNN model to meet our specific requirements and enhance its performance in our context, and then trained the custom CRNN model with the filled-in images from the year of 2019 to 2027 to extract the expiration dates and assess the model performance of LCBVAE on the expiration date recognition. The pipeline of (LCBVAE+CRNN) can be then integrated into an automated sorting systems for extracting the expiry dates and sorting the products accordingly during the manufacture stage. Additionally, it can overcome the manual entry of expiration dates that can be time-consuming and inefficient at the merchants. Due to the lack of the availability of the dotted Arabic expiration date images, we created an Arabic dot-matrix True Type Font (TTF) for the generation of the synthetic images. We trained the model with unrealistic synthetic dates of 60,000 images and performed the testing on a realistic synthetic date of 3000 images from the year of 2019 to 2027, represented as yyyy/mm/dd. In our study, we demonstrated the significance of latent bottleneck layer with improving the generalization when the size is increased up to 1024 in downstream transfer learning tasks as for image translation. The proposed approach achieved an accuracy of 97% on the image translation with using the LCBVAE architecture that can be generalized for any downstream learning tasks as for image translation and reconstruction.

arxiv情報

著者 Ahmed Zidane,Ghada Soliman
発行日 2024-10-01 14:35:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク