Bielik 11B v2 Technical Report

要約

ポーランドのテキスト処理用に最適化された最先端の言語モデルであるBielik 11b V2を紹介します。
Mistral 7B V0.2アーキテクチャに基づいて構築され、深さのアップスケーリングを使用して11Bパラメーターにスケーリングされたこのモデルは、強力な言語能力を維持しながら、ポーランド語のベンチマーク全体で例外的なパフォーマンスを示しています。
2つの主要な技術的革新を紹介します。加重命令のクロスエントロピー損失は、品質ベースの重みをトレーニングの例に割り当てることにより、多様な指導タイプ全体の学習を最適化し、コンテキストの長さに基づいて動的に調整する適応学習率です。
複数のベンチマークにわたる包括的な評価は、Bielik 11B V2が2〜6倍のパラメーターを含む多くのより大きなモデルを上回り、言語学的理解から複雑な推論に至るまでのタスクに関する他の特殊なポーランド語モデルを大幅に上回ることを示しています。
モデルのパラメーター効率と広範な量子化オプションにより、さまざまなハードウェア構成全体に展開でき、ポーランド語のAI機能を進め、リソース効率の悪い言語モデリングの新しいベンチマークを定期的でない言語で確立できます。

要約(オリジナル)

We present Bielik 11B v2, a state-of-the-art language model optimized for Polish text processing. Built on the Mistral 7B v0.2 architecture and scaled to 11B parameters using depth up-scaling, this model demonstrates exceptional performance across Polish language benchmarks while maintaining strong cross-lingual capabilities. We introduce two key technical innovations: Weighted Instruction Cross-Entropy Loss, which optimizes learning across diverse instruction types by assigning quality-based weights to training examples, and Adaptive Learning Rate, which dynamically adjusts based on context length. Comprehensive evaluation across multiple benchmarks demonstrates that Bielik 11B v2 outperforms many larger models, including those with 2-6 times more parameters, and significantly surpasses other specialized Polish language models on tasks ranging from linguistic understanding to complex reasoning. The model’s parameter efficiency and extensive quantization options enable deployment across various hardware configurations, advancing Polish language AI capabilities and establishing new benchmarks for resource-efficient language modeling in less-represented languages.

arxiv情報

著者 Krzysztof Ociepa,Łukasz Flis,Krzysztof Wróbel,Adrian Gwoździej,Remigiusz Kinas
発行日 2025-05-05 07:03:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, I.2.7 パーマリンク