Automated Query Generation for Evidence Collection from Web Search Engines

要約

インターネットで情報を検索することで、いわゆる事実を確認できることは広く受け入れられています。
このプロセスでは、ファクトチェッカーが事実に基づいて検索クエリを作成し、それを検索エンジンに提示する必要があります。
次に、決定を下す前に、検索結果で関連性のある信頼できる文章を特定する必要があります。
このプロセスは、多くの報道機関やメディア組織の副編集者によって日常的に行われています。
ここで、最初のステップであるクエリ生成を自動化できるかどうかについて質問します。
人間の専門家が作成したものと同様の事実に基づいたステートメントに基づいて、検索クエリを自動的に作成できますか?
ここでは、テキストの類似性と、検索エンジンによって返される関連ドキュメントの両方の観点から、類似性を検討します。
まず、人間が生成した関連する検索クエリと検索結果とともに、390 の事実に関する記述を含む中規模の証拠収集データセットを紹介します。
次に、事前トレーニングされた大規模言語モデル (LLM) に基づいて、多数のルールベースおよび自動テキスト生成方法を使用してクエリを生成する方法を調査します。
これらの方法には異なるメリットがあることを示し、実際に優れたパフォーマンスを発揮するハイブリッドアプローチを提案します。

要約(オリジナル)

It is widely accepted that so-called facts can be checked by searching for information on the Internet. This process requires a fact-checker to formulate a search query based on the fact and to present it to a search engine. Then, relevant and believable passages need to be identified in the search results before a decision is made. This process is carried out by sub-editors at many news and media organisations on a daily basis. Here, we ask the question as to whether it is possible to automate the first step, that of query generation. Can we automatically formulate search queries based on factual statements which are similar to those formulated by human experts? Here, we consider similarity both in terms of textual similarity and with respect to relevant documents being returned by a search engine. First, we introduce a moderate-sized evidence collection dataset which includes 390 factual statements together with associated human-generated search queries and search results. Then, we investigate generating queries using a number of rule-based and automatic text generation methods based on pre-trained large language models (LLMs). We show that these methods have different merits and propose a hybrid approach which has superior performance in practice.

arxiv情報

著者 Nestor Prieto-Chavana,Julie Weeds,David Weir
発行日 2023-03-15 14:32:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク