Zero-Shot Prompting and Few-Shot Fine-Tuning: Revisiting Document Image Classification Using Large Language Models


それにもかかわらず、特定のベンチマーク データセット、特に RVL-CDIP では、数十万のトレーニング サンプルを考慮すると、最先端のパフォーマンスがほぼ完璧に近づいています。
優れた少数回学習器である大規模言語モデル (LLM) の出現により、わずかなトレーニング サンプルだけで、またはまったくトレーニング サンプルを使用せずに文書分類問題にどの程度対処できるかという疑問が生じます。
このペーパーでは、人間による注釈付きトレーニング サンプルの必要性をできる限り減らすことを目的として、ゼロショット プロンプティングと少数ショット モデルの微調整のコンテキストでこの問題を調査します。


Classifying scanned documents is a challenging problem that involves image, layout, and text analysis for document understanding. Nevertheless, for certain benchmark datasets, notably RVL-CDIP, the state of the art is closing in to near-perfect performance when considering hundreds of thousands of training samples. With the advent of large language models (LLMs), which are excellent few-shot learners, the question arises to what extent the document classification problem can be addressed with only a few training samples, or even none at all. In this paper, we investigate this question in the context of zero-shot prompting and few-shot model fine-tuning, with the aim of reducing the need for human-annotated training samples as much as possible.


著者 Anna Scius-Bertrand,Michael Jungo,Lars Vögtlin,Jean-Marc Spat,Andreas Fischer
発行日 2024-12-18 13:53:16+00:00
カテゴリー: cs.CV