要約
デジタル化された履歴テキストの量が増えているため、テキストの埋め込みを使用した効果的なセマンティック検索が必要です。
ただし、事前に訓練された多言語モデルは、OCRノイズと時代遅れのスペルによる歴史的なコンテンツで課題に直面しています。
この研究では、低リソース言語である歴史的なルクセンブルク(LB)における言語間セマンティック検索のための多言語の埋め込みを調べます。
さまざまな期間から歴史的なルクセンブルクのニュース記事を収集し、文のセグメンテーションと翻訳にGPT-4oを使用して、言語ペアごとに20,000の並列トレーニング文を生成します。
さらに、セマンティック検索(Historical LB Bitext Mining)評価セットを作成し、既存のモデルが歴史的なルクセンブルギッシュの横断的検索でパフォーマンスが低いことがわかります。
履歴および追加の最新の並列トレーニングデータを使用して、対照的な学習または知識の蒸留を通じていくつかの多言語埋め込みモデルを適応させ、すべてのモデルの精度を大幅に向上させます。
調整されたモデルと歴史的なルクセンブルク – ドイツ/フランス語/英語のbitextsをリリースして、さらなる研究をサポートします。
要約(オリジナル)
The growing volume of digitized historical texts requires effective semantic search using text embeddings. However, pre-trained multilingual models face challenges with historical content due to OCR noise and outdated spellings. This study examines multilingual embeddings for cross-lingual semantic search in historical Luxembourgish (LB), a low-resource language. We collect historical Luxembourgish news articles from various periods and use GPT-4o for sentence segmentation and translation, generating 20,000 parallel training sentences per language pair. Additionally, we create a semantic search (Historical LB Bitext Mining) evaluation set and find that existing models perform poorly on cross-lingual search for historical Luxembourgish. Using our historical and additional modern parallel training data, we adapt several multilingual embedding models through contrastive learning or knowledge distillation and increase accuracy significantly for all models. We release our adapted models and historical Luxembourgish-German/French/English bitexts to support further research.
arxiv情報
著者 | Andrianos Michail,Corina Julia Raclé,Juri Opitz,Simon Clematide |
発行日 | 2025-03-13 13:19:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google