要約
SPRP(Split and Rephrase)タスクは、複雑な文章を、元の意味を保ちながら、より短い文法的な文章の列に分割するタスクであり、人間にとっても機械にとっても、複雑な文章の処理を容易にすることができる。また、複雑な文法的側面をモデル化する必要があるため、自然言語処理モデルを評価するための貴重なテストベッドでもある。本研究では、このタスクで大規模な言語モデルを評価し、主要なメトリクスにおいて、最新技術を大きく上回る改善を提供できることを示す。2つの人間による評価結果は、自動化されたメトリクス結果から導き出された結論をさらに支持する。我々は、プロンプトのバリエーション、ドメインシフト、様々なパラメータサイズとトレーニングデータ量のファインチューニングされたプリトレーニング言語モデルを含む包括的な研究を提供し、インストラクションチューニングされた言語モデルのゼロショットと数ショットの両方のアプローチと対比させた。後者は、ファインチューニングされた言語モデルに著しく劣るが、既製品の代替としては妥当であろう。この結果は、SPRPにおける大規模言語モデルの可能性と限界について、きめ細かい分析を提供するものである。
要約(オリジナル)
The Split and Rephrase (SPRP) task, which consists in splitting complex sentences into a sequence of shorter grammatical sentences, while preserving the original meaning, can facilitate the processing of complex texts for humans and machines alike. It is also a valuable testbed to evaluate natural language processing models, as it requires modelling complex grammatical aspects. In this work, we evaluate large language models on the task, showing that they can provide large improvements over the state of the art on the main metrics, although still lagging in terms of splitting compliance. Results from two human evaluations further support the conclusions drawn from automated metric results. We provide a comprehensive study that includes prompting variants, domain shift, fine-tuned pretrained language models of varying parameter size and training data volumes, contrasted with both zero-shot and few-shot approaches on instruction-tuned language models. Although the latter were markedly outperformed by fine-tuned models, they may constitute a reasonable off-the-shelf alternative. Our results provide a fine-grained analysis of the potential and limitations of large language models for SPRP, with significant improvements achievable using relatively small amounts of training data and model parameters overall, and remaining limitations for all models on the task.
arxiv情報
著者 | David Ponce,Thierry Etchegoyhen,Jesús Calleja Pérez,Harritxu Gete |
発行日 | 2024-06-03 10:00:13+00:00 |
arxivサイト | arxiv_id(pdf) |