要約
大規模言語モデル (LLM) およびマルチモーダル大規模言語モデル (MLLM) の最近の開発では、アテンションベースのトランスフォーマー アーキテクチャが活用され、優れたパフォーマンスと汎化機能が実現されました。
それ以来、彼らは従来の学習課題の広範な領域をカバーしてきました。
たとえば、以前はさまざまなモデルを使用して対処されていた、テキスト分類やシーケンス ラベリングなどのテキスト ベースのタスクや、ビジュアル質問応答 (VQA) や光学式文字認識 (OCR) などのマルチモーダル タスクも、今後は可能になります。
1 つの基礎モデルに基づいて取り組みます。
したがって、LLM と MLLM、特に Transformer アーキテクチャに基づくもののトレーニングと軽量微調整が特に重要になっています。
こうした圧倒的なニーズを認識して、当社は大規模モデル向けのカスタマイズ可能なワンストップ インフラストラクチャである SWIFT を開発しました。
$300+$ LLM と $50+$ MLLM をサポートする SWIFT は、大規模モデルの微調整に \textit{最も包括的なサポート} を提供するオープンソース フレームワークとして機能します。
特に、MLLM に体系的なサポートを提供する最初のトレーニング フレームワークです。
SWIFT は、微調整の中核機能に加えて、推論、評価、モデルの量子化などのトレーニング後のプロセスも統合し、さまざまなアプリケーション シナリオで大規模なモデルを迅速に導入できるようにします。
SWIFT は、さまざまなトレーニング手法を体系的に統合することにより、大規模モデルのさまざまなトレーニング手法間のベンチマーク比較などの便利なユーティリティを提供します。
エージェント フレームワークに特化した微調整モデルの場合、SWIFT 上でカスタマイズされたデータセットを使用してトレーニングすることにより、ToolBench リーダーボードで顕著な改善が達成され、さまざまなベースラインと比較して Act.EM メトリクスが 5.2% ~ 21.8% 増加することがわかりました。
モデルでは、幻覚が 1.6% ~ 14.1% 減少し、平均パフォーマンスが 8% ~ 17% 向上しました。
要約(オリジナル)
Recent development in Large Language Models (LLMs) and Multi-modal Large Language Models (MLLMs) have leverage Attention-based Transformer architectures and achieved superior performance and generalization capabilities. They have since covered extensive areas of traditional learning tasks. For instance, text-based tasks such as text-classification and sequence-labeling, as well as multi-modal tasks like Visual Question Answering (VQA) and Optical Character Recognition (OCR), which were previously addressed using different models, can now be tackled based on one foundation model. Consequently, the training and lightweight fine-tuning of LLMs and MLLMs, especially those based on Transformer architecture, has become particularly important. In recognition of these overwhelming needs, we develop SWIFT, a customizable one-stop infrastructure for large models. With support of over $300+$ LLMs and $50+$ MLLMs, SWIFT stands as the open-source framework that provide the \textit{most comprehensive support} for fine-tuning large models. In particular, it is the first training framework that provides systematic support for MLLMs. In addition to the core functionalities of fine-tuning, SWIFT also integrates post-training processes such as inference, evaluation, and model quantization, to facilitate fast adoptions of large models in various application scenarios. With a systematic integration of various training techniques, SWIFT offers helpful utilities such as benchmark comparisons among different training techniques for large models. For fine-tuning models specialized in agent framework, we show that notable improvements on the ToolBench leader-board can be achieved by training with customized dataset on SWIFT, with an increase of 5.2%-21.8% in the Act.EM metric over various baseline models, a reduction in hallucination by 1.6%-14.1%, and an average performance improvement of 8%-17%.
arxiv情報
著者 | Yuze Zhao,Jintao Huang,Jinghan Hu,Xingjun Wang,Yunlin Mao,Daoze Zhang,Zeyinzi Jiang,Zhikai Wu,Baole Ai,Ang Wang,Wenmeng Zhou,Yingda Chen |
発行日 | 2024-08-13 09:22:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google