要約
GPT-3 などの大規模言語モデル (LLM) は目覚ましい成功を収めていますが、テキスト分類のタスクでは、そのパフォーマンスは依然として微調整されたモデルを大幅に下回っています。
これは、(1)複雑な言語現象(強さ、対比、皮肉など)に対処する推論能力の欠如によるものです。
(2) コンテキスト内学習で許可されるトークンの数には制限があります。
このペーパーでは、Clue And Reasoning Prompting (CARP) について紹介します。
CARP は、テキスト分類に関与する複雑な言語現象に対処するために調整された進歩的な推論戦略を採用しています。CARP はまず LLM に表面的な手がかり (キーワード、トーン、意味関係、参照など) を見つけるよう促し、それに基づいて診断推論プロセスが誘導されます。
最終的な決定のために。
トークン制限の問題にさらに対処するために、CARP は、コンテキスト内学習における $k$NN デモンストレーション検索用の教師付きデータセットで微調整されたモデルを使用し、モデルが LLM の汎化能力とタスクの両方を活用できるようにします。
完全なラベル付きデータセットによって提供される具体的な証拠。
注目すべきことに、CARP は、広く使用されているテキスト分類ベンチマーク 5 つのうち 4 つで新しい SOTA パフォーマンスをもたらしました。SST-2 では 97.39 (+1.24)、AGNews では 96.40 (+0.72)、R8 では 98.78 (+0.25)、および 96.95 (+0.6) でした。
R52 では )、MR では SOTA に匹敵するパフォーマンス (92.39 対 93.3)。
さらに重要なのは、CARP が低リソースおよびドメイン適応セットアップで優れた機能を提供することがわかりました。
具体的には、CARP はクラスあたり 16 個のサンプルを使用して、クラスあたり 1,024 個のサンプルを持つ教師ありモデルと同等のパフォーマンスを達成します。
要約(オリジナル)
Despite the remarkable success of large-scale Language Models (LLMs) such as GPT-3, their performances still significantly underperform fine-tuned models in the task of text classification. This is due to (1) the lack of reasoning ability in addressing complex linguistic phenomena (e.g., intensification, contrast, irony etc); (2) limited number of tokens allowed in in-context learning. In this paper, we introduce Clue And Reasoning Prompting (CARP). CARP adopts a progressive reasoning strategy tailored to addressing the complex linguistic phenomena involved in text classification: CARP first prompts LLMs to find superficial clues (e.g., keywords, tones, semantic relations, references, etc), based on which a diagnostic reasoning process is induced for final decisions. To further address the limited-token issue, CARP uses a fine-tuned model on the supervised dataset for $k$NN demonstration search in the in-context learning, allowing the model to take the advantage of both LLM’s generalization ability and the task-specific evidence provided by the full labeled dataset. Remarkably, CARP yields new SOTA performances on 4 out of 5 widely-used text-classification benchmarks, 97.39 (+1.24) on SST-2, 96.40 (+0.72) on AGNews, 98.78 (+0.25) on R8 and 96.95 (+0.6) on R52, and a performance comparable to SOTA on MR (92.39 v.s. 93.3). More importantly, we find that CARP delivers impressive abilities on low-resource and domain-adaptation setups. Specifically, using 16 examples per class, CARP achieves comparable performances to supervised models with 1,024 examples per class.
arxiv情報
著者 | Xiaofei Sun,Xiaoya Li,Jiwei Li,Fei Wu,Shangwei Guo,Tianwei Zhang,Guoyin Wang |
発行日 | 2023-05-22 15:46:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google