要約
事前トレーニングされた言語モデルはいくつかの AI アプリケーションを支えていますが、トレーニングにかかる計算コストが高いため、アクセシビリティが制限されます。
BLOOM や StarCoder などの取り組みは、共同コミュニティ開発のための事前トレーニング済みモデルへのアクセスを民主化することを目的としています。
しかし、そのような既存のモデルは、多言語機能が限られていること、ゼロからの事前トレーニングは計算コストがかかる一方、継続的な事前トレーニングによって壊滅的な忘れが生じること、AI の安全性と開発に関する法律の順守などの課題に直面しています。
この論文では、英語、フィンランド語、ヒンディー語、日本語、ベトナム語、およびコードでトレーニングされた 15B パラメーターの多言語オープンソース モデルである Aurora-M について説明します。
StarCoderPlus から 4,350 億の追加トークンで継続的に事前トレーニングされた Aurora-M は、トレーニング トークンの合計数が 2 兆トークンを超えました。
これは、人間がレビューした安全指示に基づいて微調整された初のオープンソースの多言語モデルであり、その開発は従来のレッドチームの考慮事項だけでなく、金庫に関するバイデン・ハリス大統領令に明記された特定の懸念にも合わせて行われています。
安全で信頼できる人工知能の開発と使用。
Aurora-M は、さまざまなタスクと言語にわたって厳密に評価されており、致命的な忘れに対する堅牢性が実証され、多言語設定、特に安全性評価において代替手段を上回っています。
責任あるオープンソース LLM 開発を促進するために、Aurora-M とそのバリアントは https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407 でリリースされます。
要約(オリジナル)
Pretrained language models underpin several AI applications, but their high computational cost for training limits accessibility. Initiatives such as BLOOM and StarCoder aim to democratize access to pretrained models for collaborative community development. However, such existing models face challenges: limited multilingual capabilities, continual pretraining causing catastrophic forgetting, whereas pretraining from scratch is computationally expensive, and compliance with AI safety and development laws. This paper presents Aurora-M, a 15B parameter multilingual open-source model trained on English, Finnish, Hindi, Japanese, Vietnamese, and code. Continually pretrained from StarCoderPlus on 435 billion additional tokens, Aurora-M surpasses 2 trillion tokens in total training token count. It is the first open-source multilingual model fine-tuned on human-reviewed safety instructions, thus aligning its development not only with conventional red-teaming considerations, but also with the specific concerns articulated in the Biden-Harris Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence. Aurora-M is rigorously evaluated across various tasks and languages, demonstrating robustness against catastrophic forgetting and outperforming alternatives in multilingual settings, particularly in safety evaluations. To promote responsible open-source LLM development, Aurora-M and its variants are released at https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407 .
arxiv情報
著者 | Taishi Nakamura,Mayank Mishra,Simone Tedeschi,Yekun Chai,Jason T Stillerman,Felix Friedrich,Prateek Yadav,Tanmay Laud,Vu Minh Chien,Terry Yue Zhuo,Diganta Misra,Ben Bogin,Xuan-Son Vu,Marzena Karpinska,Arnav Varma Dantuluri,Wojciech Kusa,Tommaso Furlanello,Rio Yokota,Niklas Muennighoff,Suhas Pai,Tosin Adewumi,Veronika Laippala,Xiaozhe Yao,Adalberto Junior,Alpay Ariyak,Aleksandr Drozd,Jordan Clive,Kshitij Gupta,Liangyu Chen,Qi Sun,Ken Tsui,Noah Persaud,Nour Fahmy,Tianlong Chen,Mohit Bansal,Nicolo Monti,Tai Dang,Ziyang Luo,Tien-Tung Bui,Roberto Navigli,Virendra Mehta,Matthew Blumberg,Victor May,Huu Nguyen,Sampo Pyysalo |
発行日 | 2024-04-23 13:45:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google