分散表現の学習は、変動のグラウンド トゥルース ファクターが自然に存在しないため、依然として困難です。
これに対処するために、Vocabulary Disentanglement Retrieval~(VDR) を提示します。これは、自然言語を遠隔監視として活用する、シンプルでありながら効果的な検索ベースのもつれ解消フレームワークです。
私たちのアプローチは、もつれを解くヘッドを備えた広く使用されているバイエンコーダー アーキテクチャに基づいて構築されており、Web または既存のデータセットですぐに利用できるデータとテキストのペアでトレーニングされています。
テキストからテキストへのシナリオとクロスモーダル シナリオの両方で 16 のデータセットで実験を行い、ゼロ ショット設定で VDR を評価します。
もつれ解消ヘッドの組み込みとパラメーターのわずかな増加により、VDR はベースのレトリーバーよりも大幅に改善され、ゼロ ショットのテキストからテキストへの検索で NDCG@10 スコアが 9% 高くなり、平均で
クロスモーダル検索で 13% 高いリコール。
他のベースラインと比較して、VDR はほとんどのタスクでパフォーマンスが優れているだけでなく、説明可能性と効率も向上しています。
Disentangled representation learning remains challenging as ground truth factors of variation do not naturally exist. To address this, we present Vocabulary Disentanglement Retrieval~(VDR), a simple yet effective retrieval-based disentanglement framework that leverages nature language as distant supervision. Our approach is built upon the widely-used bi-encoder architecture with disentanglement heads and is trained on data-text pairs that are readily available on the web or in existing datasets. This makes our approach task- and modality-agnostic with potential for a wide range of downstream applications. We conduct experiments on 16 datasets in both text-to-text and cross-modal scenarios and evaluate VDR in a zero-shot setting. With the incorporation of disentanglement heads and a minor increase in parameters, VDR achieves significant improvements over the base retriever it is built upon, with a 9% higher on NDCG@10 scores in zero-shot text-to-text retrieval and an average of 13% higher recall in cross-modal retrieval. In comparison to other baselines, VDR outperforms them in most tasks, while also improving explainability and efficiency.
著者 | Jiawei Zhou,Xiaoguang Li,Lifeng Shang,Xin Jiang,Qun Liu,Lei Chen |
発行日 | 2022-12-15 10:20:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google