要約
最近、大規模な言語モデルが普及し、幅広いタスクにわたって高いゼロショット プロンプト パフォーマンスを発揮するようになりましたが、潜在的に慣用的な言語の処理を必要とするタスクで言語モデルがどの程度優れたパフォーマンスを発揮するかはまだわかっていません。
特に、このようなモデルは、慣用的なタスク向けに特別に微調整されたエンコーダのみのモデルと比較して、どの程度優れたパフォーマンスを発揮しますか?
この研究では、SemEval 2022 Task 2a、FLUTE、MAGPIE という 3 つの慣用性データセットに対するさまざまな LLM (ローカル モデルと Software-as-a-Service モデルの両方) のパフォーマンスを調べることで、この質問に答えようとします。
全体として、これらのモデルは競争力のあるパフォーマンスを提供しますが、たとえ最大規模 (GPT-4 など) であっても、微調整されたタスク固有のモデルの結果には匹敵しないことがわかりました。
それにもかかわらず、モデル規模全体にわたって一貫したパフォーマンスの向上が見られます。
さらに、パフォーマンスを向上させるためのプロンプト アプローチを調査し、これらのタスクに LLM を使用する実用性について説明します。
要約(オリジナル)
Despite the recent ubiquity of large language models and their high zero-shot prompted performance across a wide range of tasks, it is still not known how well they perform on tasks which require processing of potentially idiomatic language. In particular, how well do such models perform in comparison to encoder-only models fine-tuned specifically for idiomaticity tasks? In this work, we attempt to answer this question by looking at the performance of a range of LLMs (both local and software-as-a-service models) on three idiomaticity datasets: SemEval 2022 Task 2a, FLUTE, and MAGPIE. Overall, we find that whilst these models do give competitive performance, they do not match the results of fine-tuned task-specific models, even at the largest scales (e.g. for GPT-4). Nevertheless, we do see consistent performance improvements across model scale. Additionally, we investigate prompting approaches to improve performance, and discuss the practicalities of using LLMs for these tasks.
arxiv情報
著者 | Dylan Phelps,Thomas Pickard,Maggie Mi,Edward Gow-Smith,Aline Villavicencio |
発行日 | 2024-05-15 11:55:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google