要約
プロンプト チューニングは、事前トレーニング済み言語モデル (PLM) を微調整するためのスケーラブルでコスト効率の高い方法として浮上しています。
この研究では、マルチラベル テキスト分類タスクにおけるプロンプト チューニングとベースライン手法のパフォーマンスと計算効率をベンチマークします。
これは、投資会社独自の業界分類に企業を分類するユースケースに適用され、テーマ別投資戦略をサポートします。
PLM を使用したテキスト間の分類は、分類ヘッドによる分類よりも優れたパフォーマンスを発揮すると頻繁に報告されていますが、各ラベルが複数のトークンで構成されるマルチラベル分類問題に適用すると、いくつかの制限があります。 (a) 生成されたラベルはどのラベルとも一致しない可能性があります。
業界分類において。
(b) 微調整中に、複数のラベルを任意の順序で提供する必要があります。
(c) モデルは、適切な信頼スコアではなく、各ラベルの二者決定を提供します。
制限 (a) は、トライ検索を使用した制約付きデコードを適用することで解決され、分類パフォーマンスがわずかに向上します。
すべての制限 (a)、(b)、および (c) は、PLM の言語ヘッドを分類ヘッドに置き換えることによって対処されます。
これにより、パフォーマンスが大幅に向上すると同時に、推論中の計算コストも削減されます。
この結果は、強力な汎用化能力を備えた PLM の時代においても、最先端の手法をドメイン固有のタスクに適応させる必要性が引き続き必要であることを示しています。
要約(オリジナル)
Prompt Tuning is emerging as a scalable and cost-effective method to fine-tune Pretrained Language Models (PLMs). This study benchmarks the performance and computational efficiency of Prompt Tuning and baseline methods on a multi-label text classification task. This is applied to the use case of classifying companies into an investment firm’s proprietary industry taxonomy, supporting their thematic investment strategy. Text-to-text classification with PLMs is frequently reported to outperform classification with a classification head, but has several limitations when applied to a multi-label classification problem where each label consists of multiple tokens: (a) Generated labels may not match any label in the industry taxonomy; (b) During fine-tuning, multiple labels must be provided in an arbitrary order; (c) The model provides a binary decision for each label, rather than an appropriate confidence score. Limitation (a) is addressed by applying constrained decoding using Trie Search, which slightly improves classification performance. All limitations (a), (b), and (c) are addressed by replacing the PLM’s language head with a classification head. This improves performance significantly, while also reducing computational costs during inference. The results indicate the continuing need to adapt state-of-the-art methods to domain-specific tasks, even in the era of PLMs with strong generalization abilities.
arxiv情報
著者 | Valentin Leonhard Buchner,Lele Cao,Jan-Christoph Kalo |
発行日 | 2023-09-21 13:45:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google