要約
このペーパーでは、テストされるデータの性質 ($X$: マルチチャネル、マルチページ、マルチ業界、$Y$: クラス分布とラベル セット) の両方において、ドキュメント分類ベンチマークを現実世界のアプリケーションに近づける必要性を強調しています。
さまざまな)と分類タスクで考慮されます($f$: 複数ページのドキュメント、ページ ストリーム、ドキュメント バンドルの分類など)。
私たちは、公開されている複数ページの文書分類データセットの不足を特定し、アプリケーション シナリオで発生するさまざまな分類タスクを形式化し、効率的な複数ページの文書表現をターゲットにする価値を動機付けます。
提案された複数ページの文書分類データセットに関する実験的研究は、現在のベンチマークが無関係になり、実際には自然に発生する完全な文書を評価するために更新する必要があることを示しています。
この現実性チェックには、キャリブレーション評価、推論の複雑さ (時間メモリ)、および一連の現実的な分布シフト (ボーンデジタルとスキャンノイズ、ページ順序のシフトなど) をカバーする、より成熟した評価方法論も必要です。
私たちの調査は、将来の改善のための具体的な方法を推奨することで、希望に満ちた形で終わりました。}
要約(オリジナル)
This paper highlights the need to bring document classification benchmarking closer to real-world applications, both in the nature of data tested ($X$: multi-channel, multi-paged, multi-industry; $Y$: class distributions and label set variety) and in classification tasks considered ($f$: multi-page document, page stream, and document bundle classification, …). We identify the lack of public multi-page document classification datasets, formalize different classification tasks arising in application scenarios, and motivate the value of targeting efficient multi-page document representations. An experimental study on proposed multi-page document classification datasets demonstrates that current benchmarks have become irrelevant and need to be updated to evaluate complete documents, as they naturally occur in practice. This reality check also calls for more mature evaluation methodologies, covering calibration evaluation, inference complexity (time-memory), and a range of realistic distribution shifts (e.g., born-digital vs. scanning noise, shifting page order). Our study ends on a hopeful note by recommending concrete avenues for future improvements.}
arxiv情報
著者 | Jordy Van Landeghem,Sanket Biswas,Matthew B. Blaschko,Marie-Francine Moens |
発行日 | 2023-08-24 16:16:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google