要約
ユーザーが携帯電話を領収書の上に「かざす」ことで紙の領収書をデジタル化し、その後のテキスト認識のためにアプリが自動的に領収書を検出して修正できるようにする、リアルタイムのスマートフォン アプリの開発について説明します。
エッジとコーナーを検出するための従来のコンピューター ビジョン アルゴリズムは、現実世界の設定で典型的な紙の領収書の非線形で不連続なエッジとコーナーを確実に検出しないことを示します。
これは特に、レシートと背景の色が類似している場合、または他の干渉する長方形のオブジェクトが存在する場合に当てはまります。
アフィン射影変換を使用して遠近法を修正すると、領収書の角の位置が不正確に検出されると、画像が歪んでしまいます。
4 つのコーナーのそれぞれを一意の「オブジェクト」として扱い、シングル ショット検出 MobileNet オブジェクト検出モデルをトレーニングすることにより、レシート コーナー検出の革新的なソリューションを提案します。
少量の実データと、実世界のイメージング シナリオに類似するように設計された自動生成された大量の合成データを使用します。
従来のエッジ検出ベースのアプローチでは 36.9% しかなかったのに対し、提案された方法はレシートの 4 つのコーナーをロバストに検出し、実世界のデータで 85.3% のレシート検出精度を提供することを示します。
レシートの色が背景とほとんど区別できない場合でも、この方法は機能します。
さらに、私たちの方法は、中央のターゲット レシートの角のみを検出するようにトレーニングされており、他のレシートやその他の長方形のオブジェクトを無視することを暗黙的に学習します。
合成データを含めることで、さらに優れたモデルをトレーニングできます。
これらの要因は、従来のエッジ検出ベースのアプローチよりも大きな利点であり、ユーザーにはるかに優れたエクスペリエンスを提供することができます.
要約(オリジナル)
We describe the development of a real-time smartphone app that allows the user to digitize paper receipts in a novel way by ‘waving’ their phone over the receipts and letting the app automatically detect and rectify the receipts for subsequent text recognition. We show that traditional computer vision algorithms for edge and corner detection do not robustly detect the non-linear and discontinuous edges and corners of a typical paper receipt in real-world settings. This is particularly the case when the colors of the receipt and background are similar, or where other interfering rectangular objects are present. Inaccurate detection of a receipt’s corner positions then results in distorted images when using an affine projective transformation to rectify the perspective. We propose an innovative solution to receipt corner detection by treating each of the four corners as a unique ‘object’, and training a Single Shot Detection MobileNet object detection model. We use a small amount of real data and a large amount of automatically generated synthetic data that is designed to be similar to real-world imaging scenarios. We show that our proposed method robustly detects the four corners of a receipt, giving a receipt detection accuracy of 85.3% on real-world data, compared to only 36.9% with a traditional edge detection-based approach. Our method works even when the color of the receipt is virtually indistinguishable from the background. Moreover, our method is trained to detect only the corners of the central target receipt and implicitly learns to ignore other receipts, and other rectangular objects. Including synthetic data allows us to train an even better model. These factors are a major advantage over traditional edge detection-based approaches, allowing us to deliver a much better experience to the user.
arxiv情報
著者 | Edward Whittaker,Masashi Tanaka,Ikuo Kitagishi |
発行日 | 2023-03-10 08:04:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google