Split and Rephrase with Large Language Models

要約

分割と言い換えタスクは、元の意味を保持しながら、複雑な文を一連の短い文法文に分割することで構成され、人間と機械の両方にとって複雑なテキストの処理を容易にすることができます。
この研究では、大規模な言語モデルに基づいたアプローチについて説明します。このアプローチは、公開されているデータセット上で、タスクのすべての主要な指標において最先端技術を大幅に上回っています。
また、大規模な言語モデルで得られた大幅な改善とアプローチの実行可能性をさらに確立する 2 つの人間による評価の結果についても説明します。
私たちは、さまざまなパラメーター サイズの事前トレーニング済み言語モデルを微調整したり、命令調整された言語モデルにゼロショットと少数ショットの両方のコンテキスト内学習を適用したりするなど、さまざまな戦略を評価します。
後者は、微調整されたモデルよりも著しく優れたパフォーマンスを示しましたが、それでも全体として有望な結果を達成しました。
したがって、私たちの結果は、全体的に比較的少量のトレーニングサンプルとモデルパラメーターを使用して、分割と言い換えタスク用の大規模言語モデルのさまざまなバリアントの強力な可能性を示しています。

要約(オリジナル)

The Split and Rephrase task, which consists in splitting complex sentences into a sequence of shorter grammatical sentences, while preserving the original meaning, can facilitate the processing of complex texts for humans and machines alike. In this work, we describe an approach based on large language models, which improves over the state of the art by large margins on all the major metrics for the task, on publicly available datasets. We also describe results from two human evaluations that further establish the significant improvements obtained with large language models and the viability of the approach. We evaluate different strategies, including fine-tuning pretrained language models of varying parameter size, and applying both zero-shot and few-shot in-context learning on instruction-tuned language models. Although the latter were markedly outperformed by fine-tuned models, they still achieved promising results overall. Our results thus demonstrate the strong potential of different variants of large language models for the Split and Rephrase task, using relatively small amounts of training samples and model parameters overall.

arxiv情報

著者 David Ponce,Thierry Etchegoyhen,Jesús Calleja Pérez,Harritxu Gete
発行日 2023-12-19 07:47:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク