Multimodal Side-Tuning for Document Classification

要約

このホワイト ペーパーでは、マルチモーダル ドキュメント分類にサイド チューニング フレームワークを活用することを提案します。
サイドチューニングは、以前のアプローチに関連するいくつかの問題を解決するために最近導入されたネットワーク適応の方法論です。
この手法のおかげで、微調整によって、モデルの硬直性と転移学習の壊滅的な忘却を克服することが実際に可能になります。
提案されたソリューションは、サイドチューニング フレームワークを活用する市販のディープ ラーニング アーキテクチャを使用して、基本モデルを 2 つのサイド ネットワークのタンデムと組み合わせます。
さまざまなデータ ソースが考慮されている場合にも、サイド チューニングをうまく使用できることを示します。
ドキュメント分類のテキストと画像。
実験結果は、このアプローチが、最先端のドキュメント分類精度の限界をさらに押し上げることを示しています。

要約(オリジナル)

In this paper, we propose to exploit the side-tuning framework for multimodal document classification. Side-tuning is a methodology for network adaptation recently introduced to solve some of the problems related to previous approaches. Thanks to this technique it is actually possible to overcome model rigidity and catastrophic forgetting of transfer learning by fine-tuning. The proposed solution uses off-the-shelf deep learning architectures leveraging the side-tuning framework to combine a base model with a tandem of two side networks. We show that side-tuning can be successfully employed also when different data sources are considered, e.g. text and images in document classification. The experimental results show that this approach pushes further the limit for document classification accuracy with respect to the state of the art.

arxiv情報

著者 Stefano Pio Zingaro,Giuseppe Lisanti,Maurizio Gabbrielli
発行日 2023-01-23 14:28:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク