Language Models As Semantic Indexers

要約

セマンティック識別子 (ID) は、ドキュメントやアイテムなどのオブジェクトのセマンティクスを ID 内に保存することを目的とした情報検索における重要な概念です。
これまでの研究では、通常、最初に既製のテキスト エンコーダを使用してエンベディングを取得し、次にエンベディングに基づいて ID を導出することで、セマンティック ID を学習する 2 段階のパイプラインが採用されていました。
ただし、各ステップでは情報損失の可能性があり、通常、テキスト エンコーダーによって生成される潜在空間内の埋め込みの分布と、セマンティック インデックス作成に必要な予想される分布の間には固有の不一致が存在します。
セマンティック ID が離散的かつ連続的に構造化されており、セマンティック監視が不十分であることを考慮すると、ドキュメントのセマンティック表現とその階層構造を同時に学習できるメソッドを設計することは簡単ではありません。
このペーパーでは、生成言語モデルを使用してセマンティック ID を学習するための自己教師ありフレームワークである LMIndexer を紹介します。
私たちは、漸進的トレーニングと対照学習を使用してニューラル逐次離散表現を生成できるセマンティック インデクサーを導入することで、逐次離散 ID の課題に取り組みます。
意味的監視の欠陥に対応して、自己監視型文書再構成目標を使用してモデルをトレーニングすることを提案します。
学習された ID の高品質を示し、さまざまなドメインの 5 つのデータセットに対するレコメンデーション、製品検索、ドキュメント検索を含む 3 つのタスクでその有効性を実証しました。
コードは https://github.com/PeterGriffinJin/LMIndexer で入手できます。

要約(オリジナル)

Semantic identifier (ID) is an important concept in information retrieval that aims to preserve the semantics of objects such as documents and items inside their IDs. Previous studies typically adopt a two-stage pipeline to learn semantic IDs by first procuring embeddings using off-the-shelf text encoders and then deriving IDs based on the embeddings. However, each step introduces potential information loss, and there is usually an inherent mismatch between the distribution of embeddings within the latent space produced by text encoders and the anticipated distribution required for semantic indexing. It is non-trivial to design a method that can learn the document’s semantic representations and its hierarchical structure simultaneously, given that semantic IDs are discrete and sequentially structured, and the semantic supervision is deficient. In this paper, we introduce LMIndexer, a self-supervised framework to learn semantic IDs with a generative language model. We tackle the challenge of sequential discrete ID by introducing a semantic indexer capable of generating neural sequential discrete representations with progressive training and contrastive learning. In response to the semantic supervision deficiency, we propose to train the model with a self-supervised document reconstruction objective. We show the high quality of the learned IDs and demonstrate their effectiveness on three tasks including recommendation, product search, and document retrieval on five datasets from various domains. Code is available at https://github.com/PeterGriffinJin/LMIndexer.

arxiv情報

著者 Bowen Jin,Hansi Zeng,Guoyin Wang,Xiusi Chen,Tianxin Wei,Ruirui Li,Zhengyang Wang,Zheng Li,Yang Li,Hanqing Lu,Suhang Wang,Jiawei Han,Xianfeng Tang
発行日 2024-05-02 14:44:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク