Efficient Data Generation for Source-grounded Information-seeking Dialogs: A Use Case for Meeting Transcripts

要約

ソースに基づいた情報探索ダイアログ データセットを作成する既存の方法は、人間のアノテーターにのみ依存しているため、多くの場合コストがかかり、実装が困難です。
私たちは、より効率的で信頼性の高いデータ生成のために、人間の専門知識を促す大規模言語モデル (LLM) を組み合わせることを提案します。
2 人のアノテーターがロールプレイング エージェントとユーザーのダイアログをゼロから生成する、労働集約的なオズの魔法使い (WOZ) 方式の代わりに、LLM 生成を使用して 2 つの役割をシミュレートします。
次に、アノテーターは出力を検証し、属性データを追加します。
MISeD (会議情報探索ダイアログ データセット) を構築することで、この方法を実証します。会議記録に焦点を当てた最初の情報探索ダイアログ データセットです。
MISeD で微調整されたモデルは、当社のテスト セットだけでなく、新しい完全手動の WOZ テスト セットや既存のクエリベースの要約ベンチマークでも優れたパフォーマンスを示しており、当社のアプローチの有用性が示唆されています。

要約(オリジナル)

Existing methods for creating source-grounded information-seeking dialog datasets are often costly and hard to implement due to their sole reliance on human annotators. We propose combining large language models (LLMs) prompting with human expertise for more efficient and reliable data generation. Instead of the labor-intensive Wizard-of-Oz (WOZ) method, where two annotators generate a dialog from scratch, role-playing agent and user, we use LLM generation to simulate the two roles. Annotators then verify the output and augment it with attribution data. We demonstrate our method by constructing MISeD — Meeting Information Seeking Dialogs dataset — the first information-seeking dialog dataset focused on meeting transcripts. Models finetuned with MISeD demonstrate superior performance on our test set, as well as on a novel fully-manual WOZ test set and an existing query-based summarization benchmark, suggesting the utility of our approach.

arxiv情報

著者 Lotem Golany,Filippo Galgani,Maya Mamo,Nimrod Parasol,Omer Vandsburger,Nadav Bar,Ido Dagan
発行日 2024-05-02 09:35:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク