LaFiCMIL: Rethinking Large File Classification from the Perspective of Correlated Multiple Instance Learning

要約

トランスフォーマー ベースのモデルは、自然言語処理、特にテキスト分類タスクのパフォーマンスを大幅に向上させています。
それにもかかわらず、これらのモデルは、主に入力制約が原因で、大きなファイルを処理する際に課題に直面しています。入力制約は通常、数百または数千のトークンに制限されています。
既存のモデルでこの問題に対処しようとすると、通常、長い入力から重要な情報の一部のみを抽出することになりますが、アーキテクチャが複雑なため、多くの場合、高い計算コストが発生します。
この研究では、相関複数インスタンス学習の観点から大きなファイルを分類するという課題に取り組みます。
大きなファイルの分類のために特別に設計された手法である LaFiCMIL を紹介します。
LaFiCMIL は、単一 GPU で効率的に動作するように最適化されており、バイナリ、マルチクラス、およびマルチラベルの分類タスクに対する多用途のソリューションになります。
LaFiCMIL の有効性を評価するために、7 つの多様で包括的なベンチマーク データセットを使用して広範な実験を実施しました。
特徴抽出のために BERT を統合することにより、LaFiCMIL は優れたパフォーマンスを実証し、すべてのデータセットにわたって新しいベンチマークを設定します。
私たちのアプローチの注目すべき成果は、32 GB のメモリを備えた単一の GPU で動作しながら、BERT を拡張して 20,000 近くのトークンを処理できることです。
この効率と最先端のパフォーマンスを組み合わせることで、大規模ファイル分類の分野における画期的なアプローチとしての LaFiCMIL の可能性が強調されます。

要約(オリジナル)

Transfomer-based models have significantly advanced natural language processing, in particular the performance in text classification tasks. Nevertheless, these models face challenges in processing large files, primarily due to their input constraints, which are generally restricted to hundreds or thousands of tokens. Attempts to address this issue in existing models usually consist in extracting only a fraction of the essential information from lengthy inputs, while often incurring high computational costs due to their complex architectures. In this work, we address the challenge of classifying large files from the perspective of correlated multiple instance learning. We introduce LaFiCMIL, a method specifically designed for large file classification. LaFiCMIL is optimized for efficient operation on a single GPU, making it a versatile solution for binary, multi-class, and multi-label classification tasks. We conducted extensive experiments using seven diverse and comprehensive benchmark datasets to assess LaFiCMIL’s effectiveness. By integrating BERT for feature extraction, LaFiCMIL demonstrates exceptional performance, setting new benchmarks across all datasets. A notable achievement of our approach is its ability to scale BERT to handle nearly 20,000 tokens while operating on a single GPU with 32GB of memory. This efficiency, coupled with its state-of-the-art performance, highlights LaFiCMIL’s potential as a groundbreaking approach in the field of large file classification.

arxiv情報

著者 Tiezhu Sun,Weiguo Pian,Nadia Daoudi,Kevin Allix,Tegawendé F. Bissyandé,Jacques Klein
発行日 2024-05-23 14:39:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク