LaFiCMIL: Rethinking Large File Classification from the Perspective of Correlated Multiple Instance Learning

要約

BERT などの Transformer ベースのモデルは、さまざまな言語タスクに革命をもたらしましたが、入力制限 (例: 512 トークン) のため、依然として大きなファイルの分類に苦労しています。
この制限を緩和するためのいくつかの試みにもかかわらず、すべてのベンチマーク データセットにわたって一貫して優れた方法はありません。これは主に、入力ファイルから部分的な重要な情報しか抽出できないためです。
さらに、さまざまな種類の大きなファイルのさまざまな特性に適応できません。
この研究では、相関複数インスタンス学習の観点からこの問題に取り組みます。
提案されたアプローチである LaFiCMIL は、自然言語処理、プログラミング言語処理、Android 分析などのさまざまなドメインにまたがる、バイナリ、マルチクラス、およびマルチラベルの分類タスクをカバーするさまざまな大規模ファイル分類タスクに適用できる多用途のフレームワークとして機能します。
その有効性を評価するために、長い文書の分類、コード欠陥の検出、Android マルウェアの検出に関連する 8 つのベンチマーク データセットを使用します。
BERT ファミリ モデルを特徴抽出器として活用する私たちの実験結果は、LaFiCMIL がすべてのベンチマーク データセットにわたって新しい最先端のパフォーマンスを達成することを示しています。
これは主に、32G のメモリを備えた単一の Tesla V-100 GPU で実行され、BERT を最大 20,000 トークン近くまで拡張できる機能に起因しています。

要約(オリジナル)

Transformer-based models, such as BERT, have revolutionized various language tasks, but still struggle with large file classification due to their input limit (e.g., 512 tokens). Despite several attempts to alleviate this limitation, no method consistently excels across all benchmark datasets, primarily because they can only extract partial essential information from the input file. Additionally, they fail to adapt to the varied properties of different types of large files. In this work, we tackle this problem from the perspective of correlated multiple instance learning. The proposed approach, LaFiCMIL, serves as a versatile framework applicable to various large file classification tasks covering binary, multi-class, and multi-label classification tasks, spanning various domains including Natural Language Processing, Programming Language Processing, and Android Analysis. To evaluate its effectiveness, we employ eight benchmark datasets pertaining to Long Document Classification, Code Defect Detection, and Android Malware Detection. Leveraging BERT-family models as feature extractors, our experimental results demonstrate that LaFiCMIL achieves new state-of-the-art performance across all benchmark datasets. This is largely attributable to its capability of scaling BERT up to nearly 20K tokens, running on a single Tesla V-100 GPU with 32G of memory.

arxiv情報

著者 Tiezhu Sun,Weiguo Pian,Nadia Daoudi,Kevin Allix,Tegawendé F. Bissyandé,Jacques Klein
発行日 2023-08-15 12:19:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク