要約
私たちは、新しい大規模 (ほぼ 100 万の質問) 超長文 (平均文書長 50,000 ワード以上) の読解データセットを提案します。
GPT 3.5 を使用して、Project Gutenberg が手作業で厳選した 1,500 冊のフィクション本の各シーンを要約しました。その結果、1 冊あたり約 150 のシーンレベルの要約が作成されました。
その後、これらの要約に基づいて、3 種類の多肢選択式シーン認識問題や自由形式の物語再構築問題など、多数の読解問題を作成しました。
合計 990,595 の質問を含む当社のデータセットは、最も近い代替案よりも 1 桁大きいです。
重要なことは、ほとんどの質問には既知の「保持要求」があり、回答するためにどれくらいの期間の記憶が必要かを示しており、これは長期記憶性能の評価に役立つはずです。
私たちは 4 つの小規模な実験でデータを検証します。1 つは人間のラベラーを使用し、3 つは既存の言語モデルを使用しました。
私たちの質問は、1) ソース資料を適切に表していること、2) モデルのメモリ容量を診断するために使用できること、3) メモリ需要がモデルのコンテキスト長を超えない場合でも、現代の言語モデルにとっては自明ではないことを示します。
最後に、最小限の人的労力でデータセットをさらに拡張するために使用できるコードを提供します。
要約(オリジナル)
We propose a new large-scale (nearly a million questions) ultra-long-context (more than 50,000 words average document length) reading comprehension dataset. Using GPT 3.5, we summarized each scene in 1,500 hand-curated fiction books from Project Gutenberg, which resulted in approximately 150 scene-level summaries per book. After that, we created a number of reading comprehension questions based on these summaries, including three types of multiple-choice scene recognition questions, as well as free-form narrative reconstruction questions. With 990,595 total questions, our dataset is an order of magnitude larger than the closest alternatives. Crucially, most questions have a known “retention demand”, indicating how long-term of a memory is needed to answer them, which should aid long-term memory performance evaluation. We validate our data in four small-scale experiments: one with human labelers, and three with existing language models. We show that our questions 1) adequately represent the source material 2) can be used to diagnose a model’s memory capacity 3) are not trivial for modern language models even when the memory demand does not exceed those models’ context lengths. Lastly, we provide our code which can be used to further expand the dataset with minimal human labor.
arxiv情報
著者 | Arseny Moskvichev,Ky-Vinh Mai |
発行日 | 2023-12-08 01:45:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google