要約
従業員が提出する請求書と領収書は、テキスト、ビジュアル、レイアウト情報を備えたビジュアルリッチドキュメント (VRD) です。
詐欺や悪用のリスクから身を守るためには、組織にとって、提出された領収書から必要な情報を効率的に抽出することが重要です。
これは、経費請求の適切性、支出および取引ポリシーの順守、領収書の有効性、さまざまなレベルでの下流の異常検出などの重要な要素の評価に役立ちます。
これらのドキュメントは異種混合であり、複数の形式と言語があり、異なる画質でアップロードされており、多くの場合、モデルを効率的にトレーニングするためのグラウンド トゥルース ラベルが含まれていません。
この論文では、ラベルのない VRD コーパスで合成ラベルを生成するための方法であるタスク認識命令ベースのラベリング (TAIL) を提案し、応答ベースの知識蒸留を使用して TAIL ラベルのマルチモーダル Visually Rich Document Understanding Model (VRDU) を微調整します。
教師モデルの重みやトレーニング データセットを使用せずに、条件付きで適切な形式でアノテーションを生成します。
グラウンド トゥルース ラベルが利用可能なベンチマーク外部データセットを使用して、実証研究を通じて私たちのアプローチが Claude 3 Sonnet と同等に機能する条件を実証します。
次に、結果として得られたモデルが、大規模な多国籍組織の内部経費書類において、最先端の LMM (大規模マルチモーダル モデル) Claude 3 Sonnet と同等以上のパフォーマンスを発揮しながら、コストが 85% 低く、最大 5 倍高速であることを示します。
また、まれな形式から情報を推論して抽出する機能により、平均正規化レーベンシュタイン類似性 (ANLS) スコアでレイアウトを考慮したベースラインよりも 10% 以上優れています。
最後に、過払い防止における私たちのアプローチの使用法を説明します。
要約(オリジナル)
Invoices and receipts submitted by employees are visually rich documents (VRDs) with textual, visual and layout information. To protect against the risk of fraud and abuse, it is crucial for organizations to efficiently extract desired information from submitted receipts. This helps in the assessment of key factors such as appropriateness of the expense claim, adherence to spending and transaction policies, the validity of the receipt, as well as downstream anomaly detection at various levels. These documents are heterogenous, with multiple formats and languages, uploaded with different image qualities, and often do not contain ground truth labels for the efficient training of models. In this paper we propose Task Aware Instruction-based Labelling (TAIL), a method for synthetic label generation in VRD corpuses without labels, and fine-tune a multimodal Visually Rich Document Understanding Model (VRDU) on TAIL labels using response-based knowledge distillation without using the teacher model’s weights or training dataset to conditionally generate annotations in the appropriate format. Using a benchmark external dataset where ground truth labels are available, we demonstrate conditions under which our approach performs at par with Claude 3 Sonnet through empirical studies. We then show that the resulting model performs at par or better on the internal expense documents of a large multinational organization than state-of-the-art LMM (large multimodal model) Claude 3 Sonnet while being 85% less costly and ~5X faster, and outperforms layout-aware baselines by more than 10% in Average Normalized Levenshtein Similarity (ANLS) scores due to its ability to reason and extract information from rare formats. Finally, we illustrate the usage of our approach in overpayment prevention.
arxiv情報
著者 | Aniket Bhattacharyya,Anurag Tripathi |
発行日 | 2024-11-22 14:16:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google