Evaluating Out-of-Distribution Performance on Document Image Classifiers

要約

トレーニング分布とは異なる分布から引き出された入力を処理するドキュメント分類器の機能は、堅牢な展開と一般化のために非常に重要です。
RVL-CDIP コーパスは、文書分類のデファクト スタンダード ベンチマークですが、私たちの知る限り、このコーパスを使用するすべての研究には、配布されていない文書の評価が含まれていません。
このホワイト ペーパーでは、ドキュメント分類子の配布外パフォーマンスを評価するための新しい配布外ベンチマークをキュレートしてリリースします。
新しい配信外ベンチマークは、2 種類のドキュメントで構成されています。16 のドメイン内 RVL-CDIP カテゴリ (RVL-CDIP-O) のいずれにも属さないドキュメントと、16 のインドメイン RVL-CDIP カテゴリの 1 つであるドキュメントです。
ドメイン カテゴリは、元の RVL-CDIP データセット (RVL-CDIP-N) とは異なる分布から抽出されています。
ドメイン内の RVL-CDIP ドキュメントのドキュメント分類に関する以前の研究では高い精度スコアが報告されていますが、これらのモデルは、新しいドメイン外の RVL-CDIP-N ベンチマークでは約 15 ~ 30% の精度低下を示していることがわかりました。
ドメイン内の RVL-CDIP-N 入力とドメイン外の RVL-CDIP-O 入力を区別するのにさらに苦労します。
私たちの新しいベンチマークは、研究者にドキュメント分類子の配布外パフォーマンスを分析するための貴重な新しいリソースを提供します。
新しい配布外データは、https://github.com/gxlarson/rvl-cdip-ood にあります。

要約(オリジナル)

The ability of a document classifier to handle inputs that are drawn from a distribution different from the training distribution is crucial for robust deployment and generalizability. The RVL-CDIP corpus is the de facto standard benchmark for document classification, yet to our knowledge all studies that use this corpus do not include evaluation on out-of-distribution documents. In this paper, we curate and release a new out-of-distribution benchmark for evaluating out-of-distribution performance for document classifiers. Our new out-of-distribution benchmark consists of two types of documents: those that are not part of any of the 16 in-domain RVL-CDIP categories (RVL-CDIP-O), and those that are one of the 16 in-domain categories yet are drawn from a distribution different from that of the original RVL-CDIP dataset (RVL-CDIP-N). While prior work on document classification for in-domain RVL-CDIP documents reports high accuracy scores, we find that these models exhibit accuracy drops of between roughly 15-30% on our new out-of-domain RVL-CDIP-N benchmark, and further struggle to distinguish between in-domain RVL-CDIP-N and out-of-domain RVL-CDIP-O inputs. Our new benchmark provides researchers with a valuable new resource for analyzing out-of-distribution performance on document classifiers. Our new out-of-distribution data can be found at https://github.com/gxlarson/rvl-cdip-ood.

arxiv情報

著者 Stefan Larson,Gordon Lim,Yutong Ai,David Kuang,Kevin Leach
発行日 2023-01-18 16:26:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク