HAGRID: A Human-LLM Collaborative Dataset for Generative Information-Seeking with Attribution

要約

大規模言語モデル (LLM) の台頭は検索に変革的な影響を与え、サポート情報源の引用を組み込んだ自然言語テキストで検索結果を生成できる検索エンジンの新時代の到来をもたらしました。
生成的な情報探索モデルを構築するには、オープンにアクセスできるデータセットが必要ですが、現時点ではまだ不足しています。
このペーパーでは、候補引用符を取得し、属性付きの情報を生成できるエンドツーエンドの生成型情報探索モデルを構築するための新しいデータセット HAGRID (Human-in-the-loop Attributable Generative Retrieval for Information-seeking Dataset) を紹介します。
説明。
ブラックボックス独自の検索エンジンの人による評価に焦点を当てた最近の取り組みとは異なり、私たちは、一般に公開されている情報検索データセットである MIRACL の英語のサブセットの上にデータセットを構築しました。
HAGRID は人間と LLM のコラボレーションに基づいて構築されます。
まず、LLM (つまり GPT-3.5) を使用して、文脈内の引用スタイルに従う属性付きの説明を自動的に収集します。
次に、ヒューマン・アノテーターに、情報提供性と帰属可能性という 2 つの基準に基づいて LLM の説明を評価してもらいます。
HAGRID は、より優れたアトリビューション機能を備えた情報探索モデルの開発の触媒として機能します。

要約(オリジナル)

The rise of large language models (LLMs) had a transformative impact on search, ushering in a new era of search engines that are capable of generating search results in natural language text, imbued with citations for supporting sources. Building generative information-seeking models demands openly accessible datasets, which currently remain lacking. In this paper, we introduce a new dataset, HAGRID (Human-in-the-loop Attributable Generative Retrieval for Information-seeking Dataset) for building end-to-end generative information-seeking models that are capable of retrieving candidate quotes and generating attributed explanations. Unlike recent efforts that focus on human evaluation of black-box proprietary search engines, we built our dataset atop the English subset of MIRACL, a publicly available information retrieval dataset. HAGRID is constructed based on human and LLM collaboration. We first automatically collect attributed explanations that follow an in-context citation style using an LLM, i.e. GPT-3.5. Next, we ask human annotators to evaluate the LLM explanations based on two criteria: informativeness and attributability. HAGRID serves as a catalyst for the development of information-seeking models with better attribution capabilities.

arxiv情報

著者 Ehsan Kamalloo,Aref Jafari,Xinyu Zhang,Nandan Thakur,Jimmy Lin
発行日 2023-07-31 17:49:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク