RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models


大規模マルチモーダル モデル (LMM) は、さまざまな視覚言語タスクを大幅に進歩させました。
高品質のトレーニング データのスケーラビリティと可用性は、LMM の成功において極めて重要な役割を果たします。
食品の分野では、Recipe1M などの包括的な食品データセットは豊富な材料とレシピ情報を提供しますが、多くの場合、栄養分析のための十分なデータを提供することができません。
Recipe1M+ データセットは、栄養評価用のサブセットを提供しているにもかかわらず、栄養情報の規模と精度が制限されています。
このギャップを埋めるために、カテゴリ、材料、レシピ、材料レベルの栄養情報を含むさまざまな食品ラベルが付いた 100,000 枚を超える画像で構成される統合食品データセットである Uni-Food を紹介します。
Uni-Food は、食品データ分析に対するより総合的なアプローチを提供するように設計されており、それにより、この領域における LMM のパフォーマンスと機能が強化されます。
LMM の微調整中にマルチタスク監視から生じる競合を軽減するために、新しい Linear Rectification Mixture of Diverse Experts (RoDE) アプローチを導入します。
RoDE は、さまざまな複雑さのタスクに対処するために多様な専門家を活用し、それによってトレーニング可能なパラメーターの調整を容易にします。つまり、より複雑なタスクにはより多くのパラメーターを割り当て、逆に、より単純なタスクにはより少ないパラメーターを割り当てます。
RoDE は、線形整流結合を実装してルーターの機能を改良し、それによって疎なタスク割り当ての効率を高めます。
これらの設計上の選択により、RoDE には GPU メモリ効率と最適化の容易さを保証する機能が与えられます。


Large Multi-modal Models (LMMs) have significantly advanced a variety of vision-language tasks. The scalability and availability of high-quality training data play a pivotal role in the success of LMMs. In the realm of food, while comprehensive food datasets such as Recipe1M offer an abundance of ingredient and recipe information, they often fall short of providing ample data for nutritional analysis. The Recipe1M+ dataset, despite offering a subset for nutritional evaluation, is limited in the scale and accuracy of nutrition information. To bridge this gap, we introduce Uni-Food, a unified food dataset that comprises over 100,000 images with various food labels, including categories, ingredients, recipes, and ingredient-level nutritional information. Uni-Food is designed to provide a more holistic approach to food data analysis, thereby enhancing the performance and capabilities of LMMs in this domain. To mitigate the conflicts arising from multi-task supervision during fine-tuning of LMMs, we introduce a novel Linear Rectification Mixture of Diverse Experts (RoDE) approach. RoDE utilizes a diverse array of experts to address tasks of varying complexity, thereby facilitating the coordination of trainable parameters, i.e., it allocates more parameters for more complex tasks and, conversely, fewer parameters for simpler tasks. RoDE implements linear rectification union to refine the router’s functionality, thereby enhancing the efficiency of sparse task allocation. These design choices endow RoDE with features that ensure GPU memory efficiency and ease of optimization. Our experimental results validate the effectiveness of our proposed approach in addressing the inherent challenges of food-related multitasking.


著者 Pengkun Jiao,Xinlan Wu,Bin Zhu,Jingjing Chen,Chong-Wah Ngo,Yugang Jiang
発行日 2024-07-17 16:49:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV パーマリンク