Self-Supervised Contrastive BERT Fine-tuning for Fusion-based Reviewed-Item Retrieval

要約

自然言語インターフェイスにより、ユーザーはますます複雑な自然言語クエリを表現できるようになり、同時にユーザー レビュー コンテンツも爆発的に増加しており、ユーザーはこれらの表現クエリに一致するレストラン、書籍、映画などのアイテムをより適切に見つけられるようになります。
神経情報検索 (IR) 手法は、クエリをドキュメントに照合するための最先端の結果を提供してきましたが、クエリのレビュー スコアを集計する必要があるレビュー済み項目検索 (RIR) のタスクには拡張されていません (
または融合) をアイテムレベルのスコアに変換してランキングします。
ラベル付き RIR データセットが存在しない場合、クエリとレビューの両方について BERT 埋め込みの対比学習のための自己教師あり手法を活用することで、ニューラル IR 手法を RIR に拡張します。
具体的には、対照学習ではポジティブサンプルとネガティブサンプルの選択が必要ですが、アイテムレビューデータとメタデータを組み合わせた独自の 2 レベル構造により、これらのサンプルを選択するための豊富な構造が得られます。
Late Fusion シナリオでの対照学習の場合、同じ項目および/または同じ評価を持つポジティブなレビュー サンプルの使用、同じアンカー項目から最も類似性の低いレビューを選択することによるハード ポジティブ サンプルの選択、およびハード レビューの選択を調査します。
さまざまな項目から最も類似したレビューを選択することで、否定的なサンプルを抽出します。
また、アンカーのサブサンプリングとメタデータによる拡張についても調査します。
よりエンドツーエンドの早期融合アプローチとして、レビューを単一の項目埋め込みに融合する対照的な項目埋め込み学習を導入します。
実験結果は、Neural RIR の Late Fusion 対比学習が他のすべての対比 IR 構成、Neural IR、およびスパース検索ベースラインよりも優れていることを示しており、これにより、Neural RIR アプローチにおける 2 レベル構造を活用する能力と、ニュアンスを維持することの重要性が実証されました。
Late Fusion メソッドによる個々のレビュー コンテンツの評価。

要約(オリジナル)

As natural language interfaces enable users to express increasingly complex natural language queries, there is a parallel explosion of user review content that can allow users to better find items such as restaurants, books, or movies that match these expressive queries. While Neural Information Retrieval (IR) methods have provided state-of-the-art results for matching queries to documents, they have not been extended to the task of Reviewed-Item Retrieval (RIR), where query-review scores must be aggregated (or fused) into item-level scores for ranking. In the absence of labeled RIR datasets, we extend Neural IR methodology to RIR by leveraging self-supervised methods for contrastive learning of BERT embeddings for both queries and reviews. Specifically, contrastive learning requires a choice of positive and negative samples, where the unique two-level structure of our item-review data combined with meta-data affords us a rich structure for the selection of these samples. For contrastive learning in a Late Fusion scenario, we investigate the use of positive review samples from the same item and/or with the same rating, selection of hard positive samples by choosing the least similar reviews from the same anchor item, and selection of hard negative samples by choosing the most similar reviews from different items. We also explore anchor sub-sampling and augmenting with meta-data. For a more end-to-end Early Fusion approach, we introduce contrastive item embedding learning to fuse reviews into single item embeddings. Experimental results show that Late Fusion contrastive learning for Neural RIR outperforms all other contrastive IR configurations, Neural IR, and sparse retrieval baselines, thus demonstrating the power of exploiting the two-level structure in Neural RIR approaches as well as the importance of preserving the nuance of individual review content via Late Fusion methods.

arxiv情報

著者 Mohammad Mahdi Abdollah Pour,Parsa Farinneya,Armin Toroghi,Anton Korikov,Ali Pesaranghader,Touqir Sajed,Manasa Bharadwaj,Borislav Mavrin,Scott Sanner
発行日 2023-08-01 18:01:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク