Privacy-Aware Document Visual Question Answering

要約

文書視覚的質問応答(DocVQA)は、急速に文書理解の中心的タスクに成長した。しかし、文書には機密情報や著作権情報が含まれているにもかかわらず、現在のDocVQA手法はいずれも強力なプライバシー保証を提供していない。本研究では、DocVQAの領域におけるプライバシーを初めて調査し、DocVQAに使用される最新のマルチモーダルLLMモデルにおけるプライバシーの問題に焦点を当て、可能な解決策を探る。具体的には、現実的な文書理解シナリオとして請求書処理に焦点を当て、請求書文書と関連する質問と回答からなる大規模なDocVQAデータセットを提案する。我々は、異なるビジネスにおける現実の文書分布を反映した連合学習スキームを採用し、請求書提供者のデータが保護されるべき機密情報であるというユースケースを探求する。非プライベートモデルは記憶する傾向があり、これはプライベート情報の漏洩につながりうる行動であることを実証する。次に、視覚(文書画像)または言語(OCRトークン)という2つの入力モダリティのどちらか、または両方を通して機密情報が暴露される可能性がある、このマルチモダルシナリオにおいて、連合学習と差分プライバシーを採用したベースライン学習スキームを評価する。最後に、モデルの記憶効果を利用した攻撃を設計し、代表的なDocVQAモデルに対してその有効性を実証する。

要約(オリジナル)

Document Visual Question Answering (DocVQA) has quickly grown into a central task of document understanding. But despite the fact that documents contain sensitive or copyrighted information, none of the current DocVQA methods offers strong privacy guarantees. In this work, we explore privacy in the domain of DocVQA for the first time, highlighting privacy issues in state of the art multi-modal LLM models used for DocVQA, and explore possible solutions. Specifically, we focus on invoice processing as a realistic document understanding scenario, and propose a large scale DocVQA dataset comprising invoice documents and associated questions and answers. We employ a federated learning scheme, that reflects the real-life distribution of documents in different businesses, and we explore the use case where the data of the invoice provider is the sensitive information to be protected. We demonstrate that non-private models tend to memorise, a behaviour that can lead to exposing private information. We then evaluate baseline training schemes employing federated learning and differential privacy in this multi-modal scenario, where the sensitive information might be exposed through either or both of the two input modalities: vision (document image) or language (OCR tokens). Finally, we design attacks exploiting the memorisation effect of the model, and demonstrate their effectiveness in probing a representative DocVQA models.

arxiv情報

著者 Rubèn Tito,Khanh Nguyen,Marlon Tobaben,Raouf Kerkouche,Mohamed Ali Souibgui,Kangsoo Jung,Joonas Jälkö,Vincent Poulain D’Andecy,Aurelie Joseph,Lei Kang,Ernest Valveny,Antti Honkela,Mario Fritz,Dimosthenis Karatzas
発行日 2024-09-02 17:00:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク