Tina: Tiny Reasoning Models via LoRA

要約

言語モデルでは、強力な推論能力をどの程度費用対効果に達することができますか?
この基本的な質問に駆られて、私たちは、高コスト効率で達成された小さな推論モデルの家族であるティナを提示します。
特に、Tinaは、補強学習(RL)中にパラメーター効率の高い更新を適用し、低ランク適応(LORA)を使用して、すでに小さな1.5Bパラメーターベースモデルに適用することにより、最小限のリソースのみを使用して実質的な推論パフォーマンスを開発できることを実証しています。
このミニマリストアプローチは、同じ基本モデルに基づいて構築されたSOTA RL推論モデルと競争力があり、時にはそれを上回る推論パフォーマンスを達成するモデルを生成します。
重要なことに、これは既存のSOTAモデルで採用されている計算後のコストのごく一部で達成されます。
実際、最高のティナモデルは、aime24で> 20 \%の推論パフォーマンスの増加と43.33%パス@1の精度を達成します。
私たちの仕事は、LORAを介した効率的なRL推論の驚くべき有効性を明らかにしています。
これは、複数のオープンソースの推論データセットと、単一の固定されたハイパーパラメーターセットから始まるさまざまなアブレーション設定で検証します。
さらに、この有効性と効率性は、ロラがRLによって報われる推論の構造形式に迅速に適応すると同時に、基本モデルの根本的な知識を主に維持すると仮定します。
アクセシビリティとオープンリサーチにサービスを提供しているため、すべてのコード、トレーニングログ、モデルの重み\&チェックポイントを完全にオープンソースで囲みます。

要約(オリジナル)

How cost-effectively can strong reasoning abilities be achieved in language models? Driven by this fundamental question, we present Tina, a family of tiny reasoning models achieved with high cost-efficiency. Notably, Tina demonstrates that substantial reasoning performance can be developed using only minimal resources, by applying parameter-efficient updates during reinforcement learning (RL), using low-rank adaptation (LoRA), to an already tiny 1.5B parameter base model. This minimalist approach produces models that achieve reasoning performance which is competitive with, and sometimes surpasses, SOTA RL reasoning models built upon the same base model. Crucially, this is achieved at a tiny fraction of the computational post-training cost employed by existing SOTA models. In fact, the best Tina model achieves a >20\% reasoning performance increase and 43.33\% Pass@1 accuracy on AIME24, at only \$9 USD post-training and evaluation cost (i.e., an estimated 260x cost reduction). Our work reveals the surprising effectiveness of efficient RL reasoning via LoRA. We validate this across multiple open-source reasoning datasets and various ablation settings starting with a single, fixed set of hyperparameters. Furthermore, we hypothesize that this effectiveness and efficiency stem from LoRA rapidly adapting the model to the structural format of reasoning rewarded by RL, while largely preserving the base model’s underlying knowledge. In service of accessibility and open research, we fully open-source all code, training logs, and model weights \& checkpoints.

arxiv情報

著者 Shangshang Wang,Julian Asilis,Ömer Faruk Akgül,Enes Burak Bilgin,Ollie Liu,Willie Neiswanger
発行日 2025-04-22 10:38:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク