Encoding Multi-Domain Scientific Papers by Ensembling Multiple CLS Tokens

要約

トピック分類や引用予測など、科学文書に関する多くの有用なタスクには、複数の科学分野にまたがるコーパスが関係します。
通常、このようなタスクは、Transformer の 1 つの CLS トークンから取得されたベクトル埋め込みを使用してテキストを表現することによって実現されます。
この論文では、複数の CLS トークンを使用すると、Transformer が複数の科学分野にさらに特化できる可能性があると主張します。
私たちは Multi2SPE を提案します。これは、複数の CLS トークンのそれぞれがトークンの埋め込みを集約するさまざまな方法を学習することを奨励し、それらを合計して単一のベクトル表現を作成します。
また、マルチドメイン設定で科学論文のベクトル エンコーダをテストするための新しいマルチドメイン ベンチマーク、Multi-SciDocs も提案します。
Multi2SPE は、1 回の BERT 前方パスに加えて無視できる量の計算のみを必要としながら、マルチドメイン引用予測の誤差を最大 25 パーセント削減することを示します。

要約(オリジナル)

Many useful tasks on scientific documents, such as topic classification and citation prediction, involve corpora that span multiple scientific domains. Typically, such tasks are accomplished by representing the text with a vector embedding obtained from a Transformer’s single CLS token. In this paper, we argue that using multiple CLS tokens could make a Transformer better specialize to multiple scientific domains. We present Multi2SPE: it encourages each of multiple CLS tokens to learn diverse ways of aggregating token embeddings, then sums them up together to create a single vector representation. We also propose our new multi-domain benchmark, Multi-SciDocs, to test scientific paper vector encoders under multi-domain settings. We show that Multi2SPE reduces error by up to 25 percent in multi-domain citation prediction, while requiring only a negligible amount of computation in addition to one BERT forward pass.

arxiv情報

著者 Ronald Seoh,Haw-Shiuan Chang,Andrew McCallum
発行日 2023-09-08 14:00:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DL, cs.LG パーマリンク