DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs

要約

大規模な言語モデルが拡大し続けるにつれて、計算コストとリソースの消費が重要な課題として浮上しています。
剪定のような既存のスパース化方法は、計算オーバーヘッドを減らしますが、パラメーターの削除によりモデルの知識を失う危険があります。
このホワイトペーパーでは、事前に訓練されたFFN層を計算ブロックに分割することによりスパースを達成する新しいアプローチであるDSMOE(動的スパース混合物)を提案します。
シグモイドの活性化とストレートスルー推定器を使用して適応エキスパートルーティングを実装し、トークンが入力の複雑さに基づいてモデル知識のさまざまな側面に柔軟にアクセスできるようにします。
さらに、パフォーマンスと計算効率のバランスをとるために、スパースリス項を導入します。
LLAMAモデルでの広範な実験は、同等の計算上の制約の下で、DSMOEが言語モデリングと下流タスク、特に世代のタスクに優れている既存の剪定およびMOEアプローチと比較して優れたパフォーマンスを達成することを示しています。
分析により、DSMOEは特徴的な層状のアクティベーションパターンを学習し、将来のMOEアーキテクチャデザインの新しい洞察を提供することが明らかになりました。

要約(オリジナル)

As large language models continue to scale, computational costs and resource consumption have emerged as significant challenges. While existing sparsification methods like pruning reduce computational overhead, they risk losing model knowledge through parameter removal. This paper proposes DSMoE (Dynamic Sparse Mixture-of-Experts), a novel approach that achieves sparsification by partitioning pre-trained FFN layers into computational blocks. We implement adaptive expert routing using sigmoid activation and straight-through estimators, enabling tokens to flexibly access different aspects of model knowledge based on input complexity. Additionally, we introduce a sparsity loss term to balance performance and computational efficiency. Extensive experiments on LLaMA models demonstrate that under equivalent computational constraints, DSMoE achieves superior performance compared to existing pruning and MoE approaches across language modeling and downstream tasks, particularly excelling in generation tasks. Analysis reveals that DSMoE learns distinctive layerwise activation patterns, providing new insights for future MoE architecture design.

arxiv情報

著者 Minxuan Lv,Zhenpeng Su,Leiyu Pan,Yizhe Xiong,Zijia Lin,Hui Chen,Wei Zhou,Jungong Han,Guiguang Ding,Cheng Luo,Di Zhang,Kun Gai,Songlin Hu
発行日 2025-03-13 10:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs はコメントを受け付けていません

An Expanded Massive Multilingual Dataset for High-Performance Language Technologies

要約

最先端の大規模な言語モデルのトレーニングには、膨大な量のクリーンで多様なテキストデータが必要です。
ただし、適切な多言語データセットの構築は依然として課題です。
この作業では、高品質の多言語の単一言語および並列コーパスのコレクションであるHPLT V2を紹介します。
データの単一言語部分には、193の言語をカバーする8Tトークンが含まれていますが、並列データには51の言語をカバーする380mの文のペアが含まれています。
データパイプライン全体を文書化し、コードをリリースして再現します。
データの品質と特性の広範な分析を提供します。
最後に、HPLT V2でトレーニングされた言語モデルと機械翻訳システムのパフォーマンスを評価し、その価値を示します。

要約(オリジナル)

Training state-of-the-art large language models requires vast amounts of clean and diverse textual data. However, building suitable multilingual datasets remains a challenge. In this work, we present HPLT v2, a collection of high-quality multilingual monolingual and parallel corpora. The monolingual portion of the data contains 8T tokens covering 193 languages, while the parallel data contains 380M sentence pairs covering 51 languages. We document the entire data pipeline and release the code to reproduce it. We provide extensive analysis of the quality and characteristics of our data. Finally, we evaluate the performance of language models and machine translation systems trained on HPLT v2, demonstrating its value.

arxiv情報

著者 Laurie Burchell,Ona de Gibert,Nikolay Arefyev,Mikko Aulamo,Marta Bañón,and Pinzhen Chen,Mariia Fedorova,Liane Guillou,Barry Haddow,Jan Hajič,and Jindřich Helcl,Erik Henriksson,Mateusz Klimaszewski,Ville Komulainen,and Andrey Kutuzov,Joona Kytöniemi,Veronika Laippala,Petter Mæhlum,and Bhavitvya Malik,Farrokh Mehryary,Vladislav Mikhailov,Nikita Moghe,and Amanda Myntti,Dayyán O’Brien,Stephan Oepen,Proyag Pal,Jousia Piha,and Sampo Pyysalo,Gema Ramírez-Sánchez,David Samuel,Pavel Stepachev,and Jörg Tiedemann,Dušan Variš,Tereza Vojtěchová,Jaume Zaragoza-Bernabeu
発行日 2025-03-13 11:24:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | An Expanded Massive Multilingual Dataset for High-Performance Language Technologies はコメントを受け付けていません

VisualPRM: An Effective Process Reward Model for Multimodal Reasoning

要約

8Bパラメーターを備えた高度なマルチモーダルプロセス報酬モデル(PRM)であるVisualPRMを紹介します。これにより、さまざまなモデルスケールとBest-of-n(Bon)評価戦略を持つファミリで既存のマルチモーダル大手言語モデル(MLLM)の推論能力が向上します。
具体的には、私たちのモデルは、3種類のMLLMと4つの異なるモデルスケールの推論パフォーマンスを改善します。
非常に有能なInternVL2.5-78Bに適用された場合でも、7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を達成します。
実験結果は、私たちのモデルが、結果の報酬モデルとbon評価中の自己整合性と比較して優れたパフォーマンスを示すことを示しています。
マルチモーダルPRMSのトレーニングを容易にするために、自動データパイプラインを使用してマルチモーダルプロセス監督データセットVisualPRM400Kを構築します。
マルチモーダルPRMSの評価のために、マルチモーダル推論タスクの誤ったステップを検出するPRMSの能力を測定するために、人間が発表した段階的な正確さラベルを使用したベンチマークであるVisualProcessbenchを提案します。
私たちの仕事が、より多くの将来の研究を刺激し、MLLMSの発展に貢献できることを願っています。
モデル、データ、およびベンチマークは、https://internvl.github.io/blog/2025-03-13-visualprm/でリリースされています。

要約(オリジナル)

We introduce VisualPRM, an advanced multimodal Process Reward Model (PRM) with 8B parameters, which improves the reasoning abilities of existing Multimodal Large Language Models (MLLMs) across different model scales and families with Best-of-N (BoN) evaluation strategies. Specifically, our model improves the reasoning performance of three types of MLLMs and four different model scales. Even when applied to the highly capable InternVL2.5-78B, it achieves a 5.9-point improvement across seven multimodal reasoning benchmarks. Experimental results show that our model exhibits superior performance compared to Outcome Reward Models and Self-Consistency during BoN evaluation. To facilitate the training of multimodal PRMs, we construct a multimodal process supervision dataset VisualPRM400K using an automated data pipeline. For the evaluation of multimodal PRMs, we propose VisualProcessBench, a benchmark with human-annotated step-wise correctness labels, to measure the abilities of PRMs to detect erroneous steps in multimodal reasoning tasks. We hope that our work can inspire more future research and contribute to the development of MLLMs. Our model, data, and benchmark are released in https://internvl.github.io/blog/2025-03-13-VisualPRM/.

arxiv情報

著者 Weiyun Wang,Zhangwei Gao,Lianjie Chen,Zhe Chen,Jinguo Zhu,Xiangyu Zhao,Yangzhou Liu,Yue Cao,Shenglong Ye,Xizhou Zhu,Lewei Lu,Haodong Duan,Yu Qiao,Jifeng Dai,Wenhai Wang
発行日 2025-03-13 12:03:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | VisualPRM: An Effective Process Reward Model for Multimodal Reasoning はコメントを受け付けていません

Wikipedia is Not a Dictionary, Delete! Text Classification as a Proxy for Analysing Wiki Deletion Discussions

要約

WikipediaやWikidataなどの共同知識ハブの自動コンテンツモデレートは、複数の要因により重要でありながら挑戦的な作業です。
このホワイトペーパーでは、いくつかのWikiと3つの言語で削除がマークされた記事を中心に行われる議論のデータベースを作成し、それを使用して、さまざまなタスクのさまざまなLMSを評価します(議論の結果を予測することから、個々のコメントが指摘している可能性がある)。
私たちの結果は、とりわけ、削除につながる議論が予測が容易であり、驚くべきことに、自己生産されたタグ(キープ、削除、またはリダイレクト)は、おそらくユーザーのためらいやコメント内の審議のために、常に分類子をガイドするのに役立つとは限らないことを明らかにしています。

要約(オリジナル)

Automated content moderation for collaborative knowledge hubs like Wikipedia or Wikidata is an important yet challenging task due to multiple factors. In this paper, we construct a database of discussions happening around articles marked for deletion in several Wikis and in three languages, which we then use to evaluate a range of LMs on different tasks (from predicting the outcome of the discussion to identifying the implicit policy an individual comment might be pointing to). Our results reveal, among others, that discussions leading to deletion are easier to predict, and that, surprisingly, self-produced tags (keep, delete or redirect) don’t always help guiding the classifiers, presumably because of users’ hesitation or deliberation within comments.

arxiv情報

著者 Hsuvas Borkakoty,Luis Espinosa-Anke
発行日 2025-03-13 12:07:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Wikipedia is Not a Dictionary, Delete! Text Classification as a Proxy for Analysing Wiki Deletion Discussions はコメントを受け付けていません

Is My Text in Your AI Model? Gradient-based Membership Inference Test applied to LLMs

要約

この作業は、LLMSに基づくテキストの分類に勾配ベースのメンバーシップ推論テスト(GMINT)を適応し、研究します。
Mintは、与えられたデータが機械学習モデルのトレーニングに使用されているかどうかを判断するための一般的なアプローチであり、この作業は、自然言語処理のドメインへの応用に焦点を当てています。
Gradientベースの分析を使用して、Mintモデルは、言語モデルトレーニングフェーズ中に特定のデータサンプルが含まれているかどうかを識別し、機械学習におけるデータプライバシーに関する懸念の高まりに対処します。
この方法は、テキスト分類タスクに焦点を当てた250万を超える文を構成する7つの変圧器ベースのモデルと6つのデータセットで評価されました。
実験結果は、データサイズとモデルアーキテクチャに応じて、85%から99%のAUCスコアを達成し、ミントの堅牢性を示しています。
これらの調査結果は、機械学習モデルを監査するためのスケーラブルで信頼性の高いツールとしての潜在性を強調し、透明性を確保し、機密データの保護、AI/NLPテクノロジーの展開における倫理的コンプライアンスを促進します。

要約(オリジナル)

This work adapts and studies the gradient-based Membership Inference Test (gMINT) to the classification of text based on LLMs. MINT is a general approach intended to determine if given data was used for training machine learning models, and this work focuses on its application to the domain of Natural Language Processing. Using gradient-based analysis, the MINT model identifies whether particular data samples were included during the language model training phase, addressing growing concerns about data privacy in machine learning. The method was evaluated in seven Transformer-based models and six datasets comprising over 2.5 million sentences, focusing on text classification tasks. Experimental results demonstrate MINTs robustness, achieving AUC scores between 85% and 99%, depending on data size and model architecture. These findings highlight MINTs potential as a scalable and reliable tool for auditing machine learning models, ensuring transparency, safeguarding sensitive data, and fostering ethical compliance in the deployment of AI/NLP technologies.

arxiv情報

著者 Gonzalo Mancera,Daniel DeAlcala,Julian Fierrez,Ruben Tolosana,Aythami Morales
発行日 2025-03-13 12:37:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Is My Text in Your AI Model? Gradient-based Membership Inference Test applied to LLMs はコメントを受け付けていません

OSMa-Bench: Evaluating Open Semantic Mapping Under Varying Lighting Conditions

要約

オープンセマンティックマッピング(OSM)は、セマンティックセグメンテーションとスラムテクニックを組み合わせたロボット認識の重要なテクノロジーです。
このペーパーでは、OSMAベンチ(オープンセマンティックマッピングベンチマーク)と呼ばれるOSMソリューションを評価するための動的に構成可能で高度に自動化されたLLM/LVLM駆動パイプラインを紹介します。
この研究は、さまざまな屋内照明条件の下で最先端のセマンティックマッピングアルゴリズムの評価に焦点を当てています。これは、屋内環境での重大な課題です。
シミュレートされたRGB-Dシーケンスとグラウンドトゥルース3D再構成を備えた新しいデータセットを導入し、さまざまな照明条件にわたるマッピングパフォーマンスの厳密な分析を促進します。
Conceptgraphs、BBQ、Opensceneなどの主要なモデルに関する実験を通じて、オブジェクト認識とセグメンテーションの意味的な忠実度を評価します。
さらに、セマンティック構造を解釈するモデルの能力を分析するシーングラフ評価方法を紹介します。
この結果は、これらのモデルの堅牢性に関する洞察を提供し、回復力のある適応可能なロボットシステムを開発するための将来の研究の方向性を形成します。
私たちのコードは、https://be2rlab.github.io/osma-bench/で入手できます。

要約(オリジナル)

Open Semantic Mapping (OSM) is a key technology in robotic perception, combining semantic segmentation and SLAM techniques. This paper introduces a dynamically configurable and highly automated LLM/LVLM-powered pipeline for evaluating OSM solutions called OSMa-Bench (Open Semantic Mapping Benchmark). The study focuses on evaluating state-of-the-art semantic mapping algorithms under varying indoor lighting conditions, a critical challenge in indoor environments. We introduce a novel dataset with simulated RGB-D sequences and ground truth 3D reconstructions, facilitating the rigorous analysis of mapping performance across different lighting conditions. Through experiments on leading models such as ConceptGraphs, BBQ and OpenScene, we evaluate the semantic fidelity of object recognition and segmentation. Additionally, we introduce a Scene Graph evaluation method to analyze the ability of models to interpret semantic structure. The results provide insights into the robustness of these models, forming future research directions for developing resilient and adaptable robotic systems. Our code is available at https://be2rlab.github.io/OSMa-Bench/.

arxiv情報

著者 Maxim Popov,Regina Kurkova,Mikhail Iumanov,Jaafar Mahmoud,Sergey Kolyubin
発行日 2025-03-13 13:07:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO | OSMa-Bench: Evaluating Open Semantic Mapping Under Varying Lighting Conditions はコメントを受け付けていません

Automated Knowledge Concept Annotation and Question Representation Learning for Knowledge Tracing

要約

知識トレース(KT)は、学生の学習の進捗状況を長期にわたってモデル化するための一般的なアプローチであり、よりパーソナライズされた適応学習を可能にすることができます。
ただし、既存のKTアプローチは2つの主要な制限に直面しています。(1)質問の専門家が定義された知識概念(KCS)に大きく依存しており、これは時間がかかり、エラーが発生しやすい。
(2)KTメソッドは、両方の質問と指定されたKCのセマンティクスを見落とす傾向があります。
この作業では、これらの課題に対処し、既存のKTモデルの有効性を改善できる自動化された知識コンセプトアノテーションと質問表現学習のフレームワークであるKCQRLを提示します。
まず、大規模な言語モデル(LLMS)を使用して自動化されたKCアノテーションプロセスを提案します。これは、質問ソリューションを生成し、質問の各ソリューションステップでKCを注釈します。
第二に、質問や解決策の手順のために意味的に豊富な埋め込みを生成するための対照的な学習アプローチを導入し、調整された偽陰性除去アプローチを介して関連するKCと整列します。
これらの埋め込みは、既存のKTモデルに容易に統合され、ランダムに初期化された埋め込みを置き換えることができます。
2つの大規模な現実世界の数学学習データセットで15 ktアルゴリズムにわたるKCQRLの有効性を実証し、一貫したパフォーマンスの改善を実現します。

要約(オリジナル)

Knowledge tracing (KT) is a popular approach for modeling students’ learning progress over time, which can enable more personalized and adaptive learning. However, existing KT approaches face two major limitations: (1) they rely heavily on expert-defined knowledge concepts (KCs) in questions, which is time-consuming and prone to errors; and (2) KT methods tend to overlook the semantics of both questions and the given KCs. In this work, we address these challenges and present KCQRL, a framework for automated knowledge concept annotation and question representation learning that can improve the effectiveness of any existing KT model. First, we propose an automated KC annotation process using large language models (LLMs), which generates question solutions and then annotates KCs in each solution step of the questions. Second, we introduce a contrastive learning approach to generate semantically rich embeddings for questions and solution steps, aligning them with their associated KCs via a tailored false negative elimination approach. These embeddings can be readily integrated into existing KT models, replacing their randomly initialized embeddings. We demonstrate the effectiveness of KCQRL across 15 KT algorithms on two large real-world Math learning datasets, where we achieve consistent performance improvements.

arxiv情報

著者 Yilmazcan Ozyurt,Stefan Feuerriegel,Mrinmaya Sachan
発行日 2025-03-13 13:09:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Automated Knowledge Concept Annotation and Question Representation Learning for Knowledge Tracing はコメントを受け付けていません

FIND: Fine-grained Information Density Guided Adaptive Retrieval-Augmented Generation for Disease Diagnosis

要約

外部知識をLLMに統合する検索大規模な言語モデル(LLM)は、臨床診断を含むさまざまな医療ドメインで顕著なパフォーマンスを示しています。
ただし、既存のRAGメソッドは、タスクの難易度を効果的に検索の決定を下すのに苦労しており、それにより、効率と精度のバランスをとるための臨床要件を満たすことができません。
したがって、この論文では、疾患診断シナリオにおけるRAGの信頼性を向上させる新しいフレームワークであるfind(\ textbf {f} ine-greain \ textbf {in} formation \ textbf {d} guided adaptive Rag)を提案します。
FINDには、入力の情報密度に基づいて検索が必要かどうかを判断するために、きめ細かい適応制御モジュールが組み込まれています。
検索プロセスを最適化し、知識フィルタリングモジュールを実装することにより、検索が臨床シナリオにより適していることを確認します。
3つの中国の電子医療記録データセットでの実験は、さまざまなベースライン方法を大幅に上回ることを発見し、臨床診断タスクにおけるその有効性を強調していることを示しています。

要約(オリジナル)

Retrieval-Augmented Large Language Models (LLMs), which integrate external knowledge into LLMs, have shown remarkable performance in various medical domains, including clinical diagnosis. However, existing RAG methods struggle to effectively assess task difficulty to make retrieval decisions, thereby failing to meet the clinical requirements for balancing efficiency and accuracy. So in this paper, we propose FIND (\textbf{F}ine-grained \textbf{In}formation \textbf{D}ensity Guided Adaptive RAG), a novel framework that improves the reliability of RAG in disease diagnosis scenarios. FIND incorporates a fine-grained adaptive control module to determine whether retrieval is necessary based on the information density of the input. By optimizing the retrieval process and implementing a knowledge filtering module, FIND ensures that the retrieval is better suited to clinical scenarios. Experiments on three Chinese electronic medical record datasets demonstrate that FIND significantly outperforms various baseline methods, highlighting its effectiveness in clinical diagnosis tasks.

arxiv情報

著者 Mingyi Jia,Junwen Duan,Yan Song,Jianxin Wang
発行日 2025-03-13 13:13:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | FIND: Fine-grained Information Density Guided Adaptive Retrieval-Augmented Generation for Disease Diagnosis はコメントを受け付けていません

KV-Distill: Nearly Lossless Learnable Context Compression for LLMs

要約

シーケンスからシーケンスへのタスクは、しばしば長いコンテキストから恩恵を受けますが、標準変圧器における自己関節の二次複雑さはこの非自明になります。
生成中、GPUメモリの使用量の大部分について、いわゆるKVキャッシュアカウントに一時的な表現が貯蔵され、コンテキストの長さで直線的にスケーリングされます。
長いコンテキストKVキャッシュを質問に依存しない方法で大幅に短い表現に蒸留するトランス圧縮フレームワークであるKV-Distillを紹介します。
KV-distillは、事前に処理されたモデルのパラメーター効率の高いアダプターとしてトレーニングでき、事前に訓練されたモデル機能を維持しながら、コンテキストの任意のスパンの圧縮を可能にします。
圧縮された非競合キャッシュを学生と教師のペアリングとして扱い、KLタイプの発散を適用して生成された出力に合わせます。
KV-distillは、最悪の抽出タスクの他の圧縮技術を上回り、長いコンテキストの質問に応答して要約することで圧縮されていないパフォーマンスに近づき、ドメイン固有のコンテキストで微調整して、ダウンストリームパフォーマンスを維持しながら最大99%減少します。
さまざまなモデルサイズとアーキテクチャにわたるKV-Distillの一般化可能性を示します。

要約(オリジナル)

Sequence-to-sequence tasks often benefit from long contexts, but the quadratic complexity of self-attention in standard Transformers renders this non-trivial. During generation, temporary representations -stored in the so-called KV cache-account for a large portion of GPU memory usage and scale linearly with context length. We introduce KV-Distill, a Transformer compression framework that distills long context KV caches into significantly shorter representations in a question-independent fashion. KV-Distill can be trained as a parameter-efficient adaptor for pretrained models, and enables the compression of arbitrary spans of a context while preserving pre-trained model capabilities. We treat a compressed-uncompressed cache as a student-teacher pairing and apply a KL-type divergence to match the generated outputs. KV-Distill outperforms other compression techniques in worst-case extractive tasks and approaches uncompressed performance in long context question answering and summarization, and it can be fine-tuned on domain-specific contexts to reduce lengths by up to 99% while preserving downstream performance. We demonstrate the generalizability of KV-Distill across various model sizes and architectures.

arxiv情報

著者 Vivek Chari,Guanghui Qin,Benjamin Van Durme
発行日 2025-03-13 13:15:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | KV-Distill: Nearly Lossless Learnable Context Compression for LLMs はコメントを受け付けていません

Adapting Multilingual Embedding Models to Historical Luxembourgish

要約

デジタル化された履歴テキストの量が増えているため、テキストの埋め込みを使用した効果的なセマンティック検索が必要です。
ただし、事前に訓練された多言語モデルは、OCRノイズと時代遅れのスペルによる歴史的なコンテンツで課題に直面しています。
この研究では、低リソース言語である歴史的なルクセンブルク(LB)における言語間セマンティック検索のための多言語の埋め込みを調べます。
さまざまな期間から歴史的なルクセンブルクのニュース記事を収集し、文のセグメンテーションと翻訳にGPT-4oを使用して、言語ペアごとに20,000の並列トレーニング文を生成します。
さらに、セマンティック検索(Historical LB Bitext Mining)評価セットを作成し、既存のモデルが歴史的なルクセンブルギッシュの横断的検索でパフォーマンスが低いことがわかります。
履歴および追加の最新の並列トレーニングデータを使用して、対照的な学習または知識の蒸留を通じていくつかの多言語埋め込みモデルを適応させ、すべてのモデルの精度を大幅に向上させます。
調整されたモデルと歴史的なルクセンブルク – ドイツ/フランス語/英語のbitextsをリリースして、さらなる研究をサポートします。

要約(オリジナル)

The growing volume of digitized historical texts requires effective semantic search using text embeddings. However, pre-trained multilingual models face challenges with historical content due to OCR noise and outdated spellings. This study examines multilingual embeddings for cross-lingual semantic search in historical Luxembourgish (LB), a low-resource language. We collect historical Luxembourgish news articles from various periods and use GPT-4o for sentence segmentation and translation, generating 20,000 parallel training sentences per language pair. Additionally, we create a semantic search (Historical LB Bitext Mining) evaluation set and find that existing models perform poorly on cross-lingual search for historical Luxembourgish. Using our historical and additional modern parallel training data, we adapt several multilingual embedding models through contrastive learning or knowledge distillation and increase accuracy significantly for all models. We release our adapted models and historical Luxembourgish-German/French/English bitexts to support further research.

arxiv情報

著者 Andrianos Michail,Corina Julia Raclé,Juri Opitz,Simon Clematide
発行日 2025-03-13 13:19:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Adapting Multilingual Embedding Models to Historical Luxembourgish はコメントを受け付けていません