Are the Best Multilingual Document Embeddings simply Based on Sentence Embeddings?

要約

【タイトル】多言語文書埋め込みのベストな方法は、単に文章埋め込みに基づくものなのか?

【要約】
– 自然言語処理において、密なテキストデータのベクトル表現は重要であり、単語埋め込みや文章埋め込みを用いることで、意味理解を要する様々なタスクにおいて、最新の成果を得ることができる。
– しかしながら、文書レベルでの埋め込みを得ることは、計算的な要件や適切なデータの欠如のために困難である。そのため、大多数のアプローチでは、文章の表現に基づいて文書の埋め込みを計算することになる。
– 文書を完全にエンコードするためのアーキテクチャやモデルは、英語やその他の一部の高資源言語に限定される傾向にある。
– 本研究では、LASER、LaBSE、Sentence BERTの事前学習された多言語モデルを用いて、文から文書レベルの表現を生成するための方法のシステマチックな比較を行った。
– トークン数の切り捨て、文章の平均化、および単純なウィンドウ処理といった手法に加えて、いくつかの新しい拡張および学習可能なアプローチを3つの多言語およびクロスリングアルタスクにおいて、8つの言語を用い、3つの異なる言語ファミリーに属する。
– タスクベースの外部評価により、言語に関係なく、文章の埋め込みを組み合わせることが、文書全体を1つの単位としてエンコードするよりも効果的であることが示された。
– 意味タスクにおいては、単純な文章平均が分類タスクに対して強力なベースラインを生成するが、より複雑な組み合わせが必要であることが示された。

要約(オリジナル)

Dense vector representations for textual data are crucial in modern NLP. Word embeddings and sentence embeddings estimated from raw texts are key in achieving state-of-the-art results in various tasks requiring semantic understanding. However, obtaining embeddings at the document level is challenging due to computational requirements and lack of appropriate data. Instead, most approaches fall back on computing document embeddings based on sentence representations. Although there exist architectures and models to encode documents fully, they are in general limited to English and few other high-resourced languages. In this work, we provide a systematic comparison of methods to produce document-level representations from sentences based on LASER, LaBSE, and Sentence BERT pre-trained multilingual models. We compare input token number truncation, sentence averaging as well as some simple windowing and in some cases new augmented and learnable approaches, on 3 multi- and cross-lingual tasks in 8 languages belonging to 3 different language families. Our task-based extrinsic evaluations show that, independently of the language, a clever combination of sentence embeddings is usually better than encoding the full document as a single unit, even when this is possible. We demonstrate that while a simple sentence average results in a strong baseline for classification tasks, more complex combinations are necessary for semantic tasks.

arxiv情報

著者 Sonal Sannigrahi,Josef van Genabith,Cristina Espana-Bonet
発行日 2023-04-28 12:11:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク