WordVIS: A Color Worth A Thousand Words

要約

文書の分類は、自動化された文書処理システムにおける重要な要素と考えられています。
近年、文書分類においてマルチモーダルなアプローチがますます一般的になってきています。
これらのアプローチは改善されているにもかかわらず、膨大な量のトレーニング データと膨大な計算能力を必要とするため、業界では十分に活用されていません。
この論文では、テキストの特徴を視覚空間に直接埋め込むことでこれらの問題に対処し、軽量の画像ベースの分類器が文書分類において小規模なデータセットを使用して最先端の結果を達成できるようにします。
限られたデータに対するアプローチから生成された視覚的特徴の有効性を評価するために、標準データセット Tobacco-3482 でテストしました。
私たちの実験では、画像ベースの分類器で大幅な改善が見られ、ドキュメントの事前トレーニングなしで ResNet50 を使用した場合、4.64% の改善が達成されました。
また、ドキュメントの事前トレーニングを行わずに画像ベースの DocXClassifier を使用したスコア 91.14% で、Tobacco-3482 データセットの最高精度の新記録を樹立しました。
このアプローチの単純さ、そのリソース要件、およびその後の結果により、産業用ユースケースでの使用に優れた見通しが得られます。

要約(オリジナル)

Document classification is considered a critical element in automated document processing systems. In recent years multi-modal approaches have become increasingly popular for document classification. Despite their improvements, these approaches are underutilized in the industry due to their requirement for a tremendous volume of training data and extensive computational power. In this paper, we attempt to address these issues by embedding textual features directly into the visual space, allowing lightweight image-based classifiers to achieve state-of-the-art results using small-scale datasets in document classification. To evaluate the efficacy of the visual features generated from our approach on limited data, we tested on the standard dataset Tobacco-3482. Our experiments show a tremendous improvement in image-based classifiers, achieving an improvement of 4.64% using ResNet50 with no document pre-training. It also sets a new record for the best accuracy of the Tobacco-3482 dataset with a score of 91.14% using the image-based DocXClassifier with no document pre-training. The simplicity of the approach, its resource requirements, and subsequent results provide a good prospect for its use in industrial use cases.

arxiv情報

著者 Umar Khan,Saifullah,Stefan Agne,Andreas Dengel,Sheraz Ahmed
発行日 2024-12-13 14:12:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク