Graph Enhanced BERT for Query Understanding

要約

クエリの理解は、ユーザーの検索意図を調査し、ユーザーが最も必要な情報を見つけやすくする上で重要な役割を果たします。
ただし、短くて曖昧なクエリからセマンティック情報を取得する必要があり、タスク固有のラベル付きデータが大量に必要になることが多いため、本質的に困難です。
近年、事前学習済み言語モデル (PLM) は大規模なコーパスから一般的な意味情報を抽出できるため、さまざまな自然言語処理タスクが進歩しています。
したがって、クエリを理解するために PLM を採用する前例のない機会が存在します。
ただし、クエリ理解の目標と既存の事前トレーニング戦略の間にはギャップがあります。クエリ理解の目標は検索パフォーマンスを向上させることですが、既存の戦略ではこの目標がほとんど考慮されていません。
したがって、それらをクエリの理解に直接適用することは最適とは言えません。
一方、検索ログにはクエリと URL の間のユーザーのクリックが含まれており、コンテンツを超えたクエリに関するリッチ ユーザーの検索行動情報が得られます。
したがって、このホワイト ペーパーでは、検索ログを調査することでこのギャップを埋めることを目指します。
特に、検索ログを事前トレーニングに組み込むために、最初にノードがクエリであり、同じ URL のクリックにつながる 2 つのクエリが接続されるクエリ グラフを構築します。
次に、クエリ コンテンツとクエリ グラフの両方を活用できる、新しいグラフ強化事前トレーニング フレームワーク GE-BERT を提案します。
言い換えれば、GE-BERT はクエリの意味情報とユーザーの検索行動情報の両方を取得できます。
さまざまなクエリ理解タスクに関する広範な実験により、提案されたフレームワークの有効性が実証されました。

要約(オリジナル)

Query understanding plays a key role in exploring users’ search intents and facilitating users to locate their most desired information. However, it is inherently challenging since it needs to capture semantic information from short and ambiguous queries and often requires massive task-specific labeled data. In recent years, pre-trained language models (PLMs) have advanced various natural language processing tasks because they can extract general semantic information from large-scale corpora. Therefore, there are unprecedented opportunities to adopt PLMs for query understanding. However, there is a gap between the goal of query understanding and existing pre-training strategies — the goal of query understanding is to boost search performance while existing strategies rarely consider this goal. Thus, directly applying them to query understanding is sub-optimal. On the other hand, search logs contain user clicks between queries and urls that provide rich users’ search behavioral information on queries beyond their content. Therefore, in this paper, we aim to fill this gap by exploring search logs. In particular, to incorporate search logs into pre-training, we first construct a query graph where nodes are queries and two queries are connected if they lead to clicks on the same urls. Then we propose a novel graph-enhanced pre-training framework, GE-BERT, which can leverage both query content and the query graph. In other words, GE-BERT can capture both the semantic information and the users’ search behavioral information of queries. Extensive experiments on various query understanding tasks have demonstrated the effectiveness of the proposed framework.

arxiv情報

著者 Juanhui Li,Yao Ma,Wei Zeng,Suqi Cheng,Jiliang Tang,Shuaiqiang Wang,Dawei Yin
発行日 2023-11-17 05:17:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク