q2d: Turning Questions into Dialogs to Teach Models How to Search

要約

最近の対話言語モデルの素晴らしい機能の 1 つは、特定の対話応答を基礎付けるために関連情報を独立して検索できる機能です。
ただし、検索クエリの発行方法をモデルに教えるためのトレーニング データを取得するには、時間とリソースがかかります。
この研究では、質問から情報を求めるダイアログを生成する自動データ生成パイプラインである q2d を提案します。
大規模言語モデル (PaLM) に質問応答データセットの会話バージョンを作成するよう促し、それを使用して外部検索 API と通信して対話応答をグラウンディングするクエリ生成モデルを改善します。
検索クエリを使用して人間が作成したダイアログに依存していた以前のアプローチとは異なり、私たちの方法では、より優れた制御と拡張性を備えたクエリベースの根拠のあるダイアログを自動的に生成できます。
私たちの実験では、(1) QReCC データセットでのクエリ生成の場合、合成的に生成されたデータでトレーニングされたモデルは、人間が生成したデータでトレーニングされたモデルのパフォーマンスの 90% ~ 97% を達成します。
(2) マルチホップ MuSiQue および Bamboogle QA データセットで実証されているように、既存のダイアログ データがなくても、新しいドメインでダイアログ モデルをトレーニングするためのデータを正常に生成できます。
(3) 生成されたダイアログを徹底的に分析し、人間がダイアログを高品質であると認識し、人間が作成したダイアログと区別するのに苦労していることを示します。

要約(オリジナル)

One of the exciting capabilities of recent language models for dialog is their ability to independently search for relevant information to ground a given dialog response. However, obtaining training data to teach models how to issue search queries is time and resource consuming. In this work, we propose q2d: an automatic data generation pipeline that generates information-seeking dialogs from questions. We prompt a large language model (PaLM) to create conversational versions of question answering datasets, and use it to improve query generation models that communicate with external search APIs to ground dialog responses. Unlike previous approaches which relied on human written dialogs with search queries, our method allows to automatically generate query-based grounded dialogs with better control and scale. Our experiments demonstrate that: (1) For query generation on the QReCC dataset, models trained on our synthetically-generated data achieve 90%–97% of the performance of models trained on the human-generated data; (2) We can successfully generate data for training dialog models in new domains without any existing dialog data as demonstrated on the multi-hop MuSiQue and Bamboogle QA datasets. (3) We perform a thorough analysis of the generated dialogs showing that humans find them of high quality and struggle to distinguish them from human-written dialogs.

arxiv情報

著者 Yonatan Bitton,Shlomi Cohen-Ganor,Ido Hakimi,Yoad Lewenberg,Roee Aharoni,Enav Weinreb
発行日 2023-12-26 16:00:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク