要約
最近、テキスト領域での事前トレーニングの成功は、視覚、音声、クロスモーダルのシナリオにも完全に拡張されました。
提案されているさまざまなモダリティの事前トレーニング モデルは、モデル構造の均一性が高まる傾向にあり、これにより、統一されたフレームワーク内でさまざまな事前トレーニング モデルを実装する機会がもたらされています。
このペーパーでは、さまざまなモダリティの事前トレーニング モデルをサポートするツールキットである TencentPretrain を紹介します。
TencentPretrain の核となる機能はモジュール設計です。
このツールキットは、事前トレーニング モデルを、エンベディング、エンコーダー、ターゲット エンベディング、デコーダー、ターゲットの 5 つのコンポーネントに均一に分割します。
ほぼすべての共通モジュールが各コンポーネントに提供されているため、ユーザーはさまざまなコンポーネントから必要なモジュールを選択して、完全な事前トレーニング モデルを構築できます。
モジュール設計により、ユーザーは既存の事前トレーニング モデルを効率的に再現したり、まったく新しいモデルを構築したりすることができます。
テキスト、ビジョン、オーディオのベンチマークでツールキットをテストし、元の実装のパフォーマンスと同等であることを示します。
要約(オリジナル)
Recently, the success of pre-training in text domain has been fully extended to vision, audio, and cross-modal scenarios. The proposed pre-training models of different modalities are showing a rising trend of homogeneity in their model structures, which brings the opportunity to implement different pre-training models within a uniform framework. In this paper, we present TencentPretrain, a toolkit supporting pre-training models of different modalities. The core feature of TencentPretrain is the modular design. The toolkit uniformly divides pre-training models into 5 components: embedding, encoder, target embedding, decoder, and target. As almost all of common modules are provided in each component, users can choose the desired modules from different components to build a complete pre-training model. The modular design enables users to efficiently reproduce existing pre-training models or build brand-new one. We test the toolkit on text, vision, and audio benchmarks and show that it can match the performance of the original implementations.
arxiv情報
著者 | Zhe Zhao,Yudong Li,Cheng Hou,Jing Zhao,Rong Tian,Weijie Liu,Yiren Chen,Ningyuan Sun,Haoyan Liu,Weiquan Mao,Han Guo,Weigang Guo,Taiqiang Wu,Tao Zhu,Wenhang Shi,Chen Chen,Shan Huang,Sihong Chen,Liqun Liu,Feifei Li,Xiaoshuai Chen,Xingwu Sun,Zhanhui Kang,Xiaoyong Du,Linlin Shen,Kimmo Yan |
発行日 | 2023-07-11 09:49:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google