Towards Understanding Domain Adapted Sentence Embeddings for Document Retrieval

要約

特に特殊な語彙が豊富な技術分野では、文埋め込みモデルが大量にあるため、1 つを選択することが困難になります。
この作業では、質問応答用に通信、健康、科学のデータセットを使用して埋め込みをドメイン適応させます。
公開されているモデルとそのドメインに適応したバリアントから得られた埋め込みを、点取得精度とその (95\%) 信頼区間の両方で評価します。
さまざまな埋め込みの類似性スコアのしきい値を取得する体系的な方法を確立します。
予想通り、微調整によりブートストラップの平均精度が向上することがわかりました。
また、これによって信頼区間が狭くなり、事前トレーニングの前に微調整を行うと信頼区間がさらに改善されることも観察されています。
私たちは、上位 $K$ の分布の重複、質問との正解およびランダムな文書の類似性を測定するメトリクスを導入します。
さらに、これらのメトリクスが検索精度および類似性しきい値と相関していることを示します。
最近の文献では、検索精度に対する等方性の相反する影響が示されています。
私たちの実験では、埋め込みの等方性 (2 つの独立した最先端の等方性メトリック定義によって測定) が検索パフォーマンスと相関が低いことが証明されました。
ドメイン固有の文の埋め込みは、ドメイン非依存の文の埋め込みとほとんど重複せず、微調整するとそれらの埋め込みがさらに離れていくことを示します。
私たちの結果に基づいて、研究者や実務者による私たちの方法論と指標の使用に関する推奨事項を提供します。

要約(オリジナル)

A plethora of sentence embedding models makes it challenging to choose one, especially for technical domains rich with specialized vocabulary. In this work, we domain adapt embeddings using telecom, health and science datasets for question answering. We evaluate embeddings obtained from publicly available models and their domain-adapted variants, on both point retrieval accuracies, as well as their (95\%) confidence intervals. We establish a systematic method to obtain thresholds for similarity scores for different embeddings. As expected, we observe that fine-tuning improves mean bootstrapped accuracies. We also observe that it results in tighter confidence intervals, which further improve when pre-training is preceded by fine-tuning. We introduce metrics which measure the distributional overlaps of top-$K$, correct and random document similarities with the question. Further, we show that these metrics are correlated with retrieval accuracy and similarity thresholds. Recent literature shows conflicting effects of isotropy on retrieval accuracies. Our experiments establish that the isotropy of embeddings (as measured by two independent state-of-the-art isotropy metric definitions) is poorly correlated with retrieval performance. We show that embeddings for domain-specific sentences have little overlap with those for domain-agnostic ones, and fine-tuning moves them further apart. Based on our results, we provide recommendations for use of our methodology and metrics by researchers and practitioners.

arxiv情報

著者 Sujoy Roychowdhury,Sumit Soman,H. G. Ranjani,Vansh Chhabra,Neeraj Gunda,Shashank Gautam,Subhadip Bandyopadhyay,Sai Krishna Bala
発行日 2024-12-02 04:08:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.LG, I.2.7 パーマリンク