QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations

要約

選択的な情報ニーズを定式化すると、積、和、差分などの集合演算を暗黙的に指定するクエリが生成されます。
たとえば、「シギではないシギ類」や「イギリスで撮影された SF 映画」などを検索するかもしれません。
このような情報ニーズを満たす検索システムの能力を研究するために、Wikipedia 文書に対応する一連のエンティティにマッピングされる、暗黙的な集合演算を備えた 3357 の自然言語クエリのデータセットである QUEST を構築しました。
このデータセットは、クエリで言及された複数の制約を文書内の対応する証拠と照合し、さまざまな集合演算を正しく実行するようモデルに要求します。
データセットは、Wikipedia のカテゴリ名を使用して半自動的に構築されます。
クエリは個々のカテゴリから自動的に作成され、クラウドワーカーによって言い換えられ、自然さと流暢性がさらに検証されます。
クラウドワーカーはまた、ドキュメントに基づいてエンティティの関連性を評価し、ドキュメント テキストの範囲に対するクエリ制約の帰属を強調表示します。
私たちはいくつかの最新の検索システムを分析し、そのようなクエリでは問題が発生することが多いことを発見しました。
否定と論理積を含むクエリは特に困難であり、システムはこれらの操作を組み合わせることでさらに困難になります。

要約(オリジナル)

Formulating selective information needs results in queries that implicitly specify set operations, such as intersection, union, and difference. For instance, one might search for ‘shorebirds that are not sandpipers’ or ‘science-fiction films shot in England’. To study the ability of retrieval systems to meet such information needs, we construct QUEST, a dataset of 3357 natural language queries with implicit set operations, that map to a set of entities corresponding to Wikipedia documents. The dataset challenges models to match multiple constraints mentioned in queries with corresponding evidence in documents and correctly perform various set operations. The dataset is constructed semi-automatically using Wikipedia category names. Queries are automatically composed from individual categories, then paraphrased and further validated for naturalness and fluency by crowdworkers. Crowdworkers also assess the relevance of entities based on their documents and highlight attribution of query constraints to spans of document text. We analyze several modern retrieval systems, finding that they often struggle on such queries. Queries involving negation and conjunction are particularly challenging and systems are further challenged with combinations of these operations.

arxiv情報

著者 Chaitanya Malaviya,Peter Shaw,Ming-Wei Chang,Kenton Lee,Kristina Toutanova
発行日 2023-05-19 14:19:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク