Scaling Context, Not Parameters: Training a Compact 7B Language Model for Efficient Long-Context Processing

要約

512Kトークンのコンテキストの長さをサポートする言語モデルであるMegabeam-Mistral-7Bを提示します。
私たちの仕事は、コンプライアンスの監視や検証などの現実世界のタスクをサポートする長いコンテキストトレーニングにおける実際的な制限に対処しています。
3つの長いコンテキストベンチマークで評価された7Bパラメーターモデルは、ヘルメットの優れたコンテキスト学習パフォーマンスと、定規の堅牢な検索機能とトレース機能を示しています。
現在、RAGまたはターゲットを絞った微調整なしで512Kコンテキストの長さでBabilongで競争力のある長距離推論を達成する唯一のオープンモデルです。
Apache 2.0ライセンスの下で完全にオープンソースとしてリリースされたこのモデルは、顔を抱きしめて100,000回以上ダウンロードされています。
https://huggingface.co/aws-prototyping/megabeam-mistral-7b-512kで入手可能

要約(オリジナル)

We present MegaBeam-Mistral-7B, a language model that supports 512K-token context length. Our work addresses practical limitations in long-context training, supporting real-world tasks such as compliance monitoring and verification. Evaluated on three long-context benchmarks, our 7B-parameter model demonstrates superior in-context learning performance on HELMET and robust retrieval and tracing capability on RULER. It is currently the only open model to achieve competitive long-range reasoning on BABILong at 512K context length without RAG or targeted fine-tuning. Released as fully open source under the Apache 2.0 license, the model has been downloaded over 100,000 times on Hugging Face. Model available at: https://huggingface.co/aws-prototyping/MegaBeam-Mistral-7B-512k

arxiv情報

著者 Chen Wu,Yin Song
発行日 2025-05-13 15:13:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク