Leveraging machine learning for less developed languages: Progress on Urdu text detection

要約

自然シーンの画像でのテキスト検出は、自動運転、高齢者や視覚障害者のナビゲーション支援に応用できます。
ただし、ウルドゥー語のテキスト検出に関する研究は、通常、データ リソースの不足によって妨げられています。
ウルドゥー語のテキストを含むシーン画像のデータセットを開発しました。
機械学習手法を使用して、シーン画像からウルドゥー語のテキストを検出する方法を紹介します。
チャネル拡張最大安定極限領域 (MSER) メソッドを使用してテキスト領域を抽出します。
まず、幾何学的特性に基づいてテキストとノイズを分類します。
次に、サポート ベクター マシンを使用して、テキスト以外の領域を早期に破棄します。
非テキスト領域をさらに削除するために、取得した勾配方向ヒストグラム (HoG) 特徴を使用して、2 番目の SVM 分類器をトレーニングします。
これにより、シーン画像内のテキスト領域検出の全体的なパフォーマンスが向上します。
ウルドゥー語テキストの研究をサポートするために、データを自由に研究に使用できるようにすることを目指しています。
また、ウルドゥー語テキスト検出の課題と研究ギャップを強調することも目指しています。

要約(オリジナル)

Text detection in natural scene images has applications for autonomous driving, navigation help for elderly and blind people. However, the research on Urdu text detection is usually hindered by lack of data resources. We have developed a dataset of scene images with Urdu text. We present the use of machine learning methods to perform detection of Urdu text from the scene images. We extract text regions using channel enhanced Maximally Stable Extremal Region (MSER) method. First, we classify text and noise based on their geometric properties. Next, we use a support vector machine for early discarding of non-text regions. To further remove the non-text regions, we use histogram of oriented gradients (HoG) features obtained and train a second SVM classifier. This improves the overall performance on text region detection within the scene images. To support research on Urdu text, We aim to make the data freely available for research use. We also aim to highlight the challenges and the research gap for Urdu text detection.

arxiv情報

著者 Hazrat Ali
発行日 2022-09-28 12:00:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV パーマリンク