7B Fully Open Source Moxin-LLM/VLM — From Pretraining to GRPO-based Reinforcement Learning Enhancement

要約

最近、大規模な言語モデル(LLM)は、人気と能力の両方が急速に上昇することによって特徴付けられる大きな変化を遂げています。
この進化をリードするのは、GPT-4やGPT-O1のような独自のLLMSであり、驚くべきパフォーマンスと汎用性のためにAIコミュニティで広く注目されています。
同時に、LlamaなどのオープンソースLLMは、多様なアプリケーション全体でモデルをカスタマイズおよび展開しやすくするため、LLMSの増え続ける人気に大きな貢献をしています。
オープンソースLLMは、革新と研究のための前例のない機会を提示しますが、LLMSの商業化は透明性、再現性、安全性に関する懸念を引き起こしました。
多くのオープンソースLLMSは、トレーニングコードやデータなどの重要なコンポーネントを差し控えることにより、基本的な透明性要件を満たすことができません。
この問題を軽減するために、オープンサイエンス、オープンソース、オープンデータ、オープンアクセスの原則を順守して、完全にオープンソースLLMを開発したMoxin 7Bを紹介します。
トレーニング前のコードと構成、トレーニングと微調整データセット、および中間および最終チェックポイントをリリースし、完全にオープンソースLLMに継続的にコミットすることを目指しています。
ベースモデルを事前にトレーニングした後、SOTAトレーニング後のフレームワークと命令データを使用して、モキシン指導モデルを取得するためのMoxin Baseモデルを微調整します。
推論能力を改善するために、DeepSeek R1から蒸留された考え方のデータで指示モデルをさらに微調整し、DeepSeek R1に続くグループ相対ポリシー最適化(GRPO)を使用してモデルを獲得し、Moxin Reasoningモデルにつながります。
さらに、モキシンモデルに基づいてビジョン言語モデルを開発します。
実験は、我々のモデルがゼロショット評価、少数のショット評価、COT評価などのさまざまな評価で優れたパフォーマンスを達成することを示しています。

要約(オリジナル)

Recently, Large Language Models (LLMs) have undergone a significant transformation, marked by a rapid rise in both their popularity and capabilities. Leading this evolution are proprietary LLMs like GPT-4 and GPT-o1, which have captured widespread attention in the AI community due to their remarkable performance and versatility. Simultaneously, open-source LLMs, such as LLaMA, have made great contributions to the ever-increasing popularity of LLMs due to the ease to customize and deploy the models across diverse applications. Although open-source LLMs present unprecedented opportunities for innovation and research, the commercialization of LLMs has raised concerns about transparency, reproducibility, and safety. Many open-source LLMs fail to meet fundamental transparency requirements by withholding essential components like training code and data, which may hinder further innovations on LLMs. To mitigate this issue, we introduce Moxin 7B, a fully open-source LLM developed, adhering to principles of open science, open source, open data, and open access. We release the pre-training code and configurations, training and fine-tuning datasets, and intermediate and final checkpoints, aiming to make continuous commitments to fully open-source LLMs. After pre-training the base model, we finetune the Moxin Base model with SOTA post-training framework and instruction data to obtain Moxin Instruct model. To improve the reasoning capability, we further finetune our Instruct model with chain-of-thought data distilled from DeepSeek R1, and then use Group Relative Policy Optimization (GRPO) following DeepSeek R1 to finetune our model, leading to the Moxin Reasoning model. Moreover, we develop our vision language model based on our Moxin model. Experiments show that our models achieve superior performance in various evaluations such as zero-shot evaluation, few-shot evaluation, and CoT evaluation.

arxiv情報

著者 Pu Zhao,Xuan Shen,Zhenglun Kong,Yixin Shen,Sung-En Chang,Timothy Rupprecht,Lei Lu,Enfu Nan,Changdi Yang,Yumei He,Weiyan Shi,Xingchen Xu,Yu Huang,Wei Jiang,Wei Wang,Yue Chen,Yong He,Yanzhi Wang
発行日 2025-06-11 17:10:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク