Mapping Transformer Leveraged Embeddings for Cross-Lingual Document Representation

要約

ドキュメントのレコメンデーション システムは、Web 上で関連するコンテンツを見つけるためのツールになっています。
ただし、これらのシステムでは、クエリ言語とは異なる言語のドキュメントを推奨する場合に制限があり、非母国語のリソースを見落としてしまう可能性があります。
この研究では、言語を越えたドメインにマッピングされた Transformer Leverled Document Representations (TLDR) を使用して、言語を越えてドキュメントを表現することに焦点を当てています。
4 つの多言語事前トレーニング済みトランスフォーマー モデル (mBERT、mT5 XLM RoBERTa、ErnieM) が、欧州連合の選択された 5 つの言語の組み合わせを表す 20 の言語ペアにわたって 3 つのマッピング方法を使用して評価されました。
メイト取得率や相互ランクなどの指標を使用して、マッピングされていないものと比較したマッピングされた TLDR の有効性を測定しました。
この結果は、事前にトレーニングされたトランスフォーマーとマッピング アプローチを通じて達成される言語間表現の力を強調しており、2 つの特定の言語間で言語のつながりを超えて拡張するための有望な方向性を示唆しています。

要約(オリジナル)

Recommendation systems, for documents, have become tools to find relevant content on the Web. However, these systems have limitations when it comes to recommending documents in languages different from the query language, which means they might overlook resources in non-native languages. This research focuses on representing documents across languages by using Transformer Leveraged Document Representations (TLDRs) that are mapped to a cross-lingual domain. Four multilingual pre-trained transformer models (mBERT, mT5 XLM RoBERTa, ErnieM) were evaluated using three mapping methods across 20 language pairs representing combinations of five selected languages of the European Union. Metrics like Mate Retrieval Rate and Reciprocal Rank were used to measure the effectiveness of mapped TLDRs compared to non-mapped ones. The results highlight the power of cross-lingual representations achieved through pre-trained transformers and mapping approaches suggesting a promising direction for expanding beyond language connections, between two specific languages.

arxiv情報

著者 Tsegaye Misikir Tashu,Eduard-Raul Kontos,Matthia Sabatelli,Matias Valdenegro-Toro
発行日 2024-01-12 14:01:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク