Efficient Document Embeddings via Self-Contrastive Bregman Divergence Learning

要約

高品質のドキュメント埋め込みを学習することは、自然言語処理 (NLP)、情報検索 (IR)、推奨システム、および検索エンジンにおける基本的な問題です。
自己対比学習を使用して文の埋め込みを生成するトランスフォーマーベースのモデルの開発は最近進歩していますが、長いドキュメント (K 個の単語) のエンコードは、効率と品質の両方の観点から依然として困難です。
したがって、最先端の教師なし対比学習法 (SimCSE) を使用して、Longfomer ベースのドキュメント エンコーダーをトレーニングします。
さらに、出力ドキュメント表現の品質を向上させることを目的として、関数ブレグマン発散に基づく追加の凸型ニューラル ネットワークでベースライン手法であるシャム ニューラル ネットワークを補完します。
自己対比的シャム ネットワークと私たちが提案するニューラル ブレグマン ネットワークの組み合わせが全体として、法律および生物医学分野の 3 つの長い文書トピック分類タスクに対する 2 つの線形分類設定のベースラインを上回るパフォーマンスを示すことを示します。

要約(オリジナル)

Learning quality document embeddings is a fundamental problem in natural language processing (NLP), information retrieval (IR), recommendation systems, and search engines. Despite recent advances in the development of transformer-based models that produce sentence embeddings with self-contrastive learning, the encoding of long documents (Ks of words) is still challenging with respect to both efficiency and quality considerations. Therefore, we train Longfomer-based document encoders using a state-of-the-art unsupervised contrastive learning method (SimCSE). Further on, we complement the baseline method — siamese neural network — with additional convex neural networks based on functional Bregman divergence aiming to enhance the quality of the output document representations. We show that overall the combination of a self-contrastive siamese network and our proposed neural Bregman network outperforms the baselines in two linear classification settings on three long document topic classification tasks from the legal and biomedical domains.

arxiv情報

著者 Daniel Saggau,Mina Rezaei,Bernd Bisch,Ilias Chalkidis
発行日 2023-05-25 13:08:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク