Using Language Models on Low-end Hardware

要約

タイトル:低スペックのハードウェアにおける言語モデルの使用
要約:
– この論文は、低スペックなハードウェアでのテキスト分類ネットワークのトレーニングに固定された言語モデルの使用の実用性を評価する。
– 言語モデルをCNNアーキテクチャに組み合わせ、トピック、感情、ジャンルの単一ラベルとマルチラベルの分類をカバーする8つのデータセットを持つ包括的なベンチマークを作成する。
– 観察結果から、言語モデルのファインチューニングを行わないシナリオでは、ファインチューニングする場合に比べてトレーニング時間が速く、メモリが1/4であるにもかかわらず、競争力のある効果が得られるトレードオフのリストにまとめられる。

要約(オリジナル)

This paper evaluates the viability of using fixed language models for training text classification networks on low-end hardware. We combine language models with a CNN architecture and put together a comprehensive benchmark with 8 datasets covering single-label and multi-label classification of topic, sentiment, and genre. Our observations are distilled into a list of trade-offs, concluding that there are scenarios, where not fine-tuning a language model yields competitive effectiveness at faster training, requiring only a quarter of the memory compared to fine-tuning.

arxiv情報

著者 Fabian Ziegner,Janos Borst,Andreas Niekler,Martin Potthast
発行日 2023-05-03 18:00:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク