OmniBal: Towards Fast Instruct-tuning for Vision-Language Models via Omniverse Computation Balance

要約

最近、視覚言語命令調整モデルは、世界をより包括的に理解できるようになり、大幅な進歩を遂げています。
今回の研究で、これらのモデルに対する大規模な 3D 並列トレーニングが、さまざまなデバイス間で不均衡な計算負荷につながることを発見しました。
視覚部分と言語部分は本質的に異質なものであり、それらのデータ分散とモデル アーキテクチャは大きく異なり、分散トレーニングの効率に影響を与えます。
この問題に対処するために、データ、モデル、メモリの観点から計算負荷のバランスを再調整し、デバイス間でよりバランスのとれた計算を実現しました。
これら 3 つのコンポーネントは独立しているのではなく、密接に関連しており、全方位的にバランスのとれたトレーニング フレームワークを形成しています。
具体的には、データに関して、インスタンスをデバイス内およびデバイス間でバランスの取れた新しいミニバッチにグループ化しました。
このモデルでは、よりバランスの取れたパーティショニングを実現するために、検索ベースの方法を採用しました。
メモリの最適化では、利用可能なメモリを最大限に活用するために各パーティションの再計算戦略を適応的に調整しました。
私たちは、この方法の有効性を検証するために広範な実験を実施しました。
InternVL-Chat のオープンソース トレーニング コードと比較して、GPU 日数を大幅に削減し、約 1.8 倍の高速化を実現しました。
私たちの方法の有効性と一般化可能性は、さまざまなモデルとデータセットにわたってさらに実証されました。
コードは https://github.com/ModelTC/OmniBal でリリースされます。

要約(オリジナル)

Recently, vision-language instruct-tuning models have made significant progress due to their more comprehensive understanding of the world. In this work, we discovered that large-scale 3D parallel training on those models leads to an imbalanced computation load across different devices. The vision and language parts are inherently heterogeneous: their data distribution and model architecture differ significantly, which affects distributed training efficiency. We rebalanced the computational loads from data, model, and memory perspectives to address this issue, achieving more balanced computation across devices. These three components are not independent but are closely connected, forming an omniverse balanced training framework. Specifically, for the data, we grouped instances into new balanced mini-batches within and across devices. For the model, we employed a search-based method to achieve a more balanced partitioning. For memory optimization, we adaptively adjusted the re-computation strategy for each partition to utilize the available memory fully. We conducted extensive experiments to validate the effectiveness of our method. Compared with the open-source training code of InternVL-Chat, we significantly reduced GPU days, achieving about 1.8x speed-up. Our method’s efficacy and generalizability were further demonstrated across various models and datasets. Codes will be released at https://github.com/ModelTC/OmniBal.

arxiv情報

著者 Yongqiang Yao,Jingru Tan,Jiahao Hu,Feizhao Zhang,Xin Jin,Bo Li,Ruihao Gong,Pengfei Liu
発行日 2024-07-30 12:02:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク