Genie: Achieving Human Parity in Content-Grounded Datasets Generation

要約

コンテンツに基づいた生成タスク用の高品質データの欠如が、これらのタスクを進める上での大きな障害であることが確認されています。
このギャップに対処するために、私たちは、コンテンツに基づいた高品質のデータを自動的に生成する新しい方法である Genie を提案します。
これは 3 つの段階で構成されます: (a) コンテンツの準備、(b) 生成: コンテンツからタスク固有の例を作成します (質問と回答のペアや要約など)。
(c) 生成されたデータの品質と忠実性を確保することを目的としたフィルタリング メカニズム。
私たちは、長文質問応答 (LFQA)、要約、情報抽出のために、願いを込めて 3 つの大規模な合成データを生成することによって、この方法論を紹介します。
人間による評価では、生成されたデータは自然で高品質であることがわかりました。
さらに、私たちのデータでトレーニングされたモデルと、人が書いたデータでトレーニングされたモデル (LFQA については ELI5 と ASQA、要約については CNN-DailyMail) を比較します。
私たちのモデルは、人間が生成したデータでトレーニングされたモデルと同等かそれを上回っており、忠実度においては一貫してモデルを上回っていることを示しています。
最後に、私たちの方法を適用して医療ドメイン内で LFQA データを作成し、そのデータでトレーニングされたモデルを他のドメインでトレーニングされたモデルと比較しました。

要約(オリジナル)

The lack of high-quality data for content-grounded generation tasks has been identified as a major obstacle to advancing these tasks. To address this gap, we propose Genie, a novel method for automatically generating high-quality content-grounded data. It consists of three stages: (a) Content Preparation, (b) Generation: creating task-specific examples from the content (e.g., question-answer pairs or summaries). (c) Filtering mechanism aiming to ensure the quality and faithfulness of the generated data. We showcase this methodology by generating three large-scale synthetic data, making wishes, for Long-Form Question-Answering (LFQA), summarization, and information extraction. In a human evaluation, our generated data was found to be natural and of high quality. Furthermore, we compare models trained on our data with models trained on human-written data — ELI5 and ASQA for LFQA and CNN-DailyMail for Summarization. We show that our models are on par with or outperforming models trained on human-generated data and consistently outperforming them in faithfulness. Finally, we applied our method to create LFQA data within the medical domain and compared a model trained on it with models trained on other domains.

arxiv情報

著者 Asaf Yehudai,Boaz Carmeli,Yosi Mass,Ofir Arviv,Nathaniel Mills,Assaf Toledo,Eyal Shnarch,Leshem Choshen
発行日 2024-01-25 18:14:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク