LLaVA-$φ$: Efficient Multi-Modal Assistant with Small Language Model

要約

本論文では、LLaVA-$phi$(LLaVA-Phi)を紹介する。LLaVA-Phiは、最近開発された小型言語モデルPhi-2の能力を利用し、マルチモーダル対話を促進する効率的なマルチモーダルアシスタントである。LLaVA-Phiは、コンパクトなマルチモーダルモデルの領域における注目すべき進歩である。LLaVA-Phiは、わずか2.7Bのパラメータを持つ小さな言語モデルでも、高品質なコーパスを用いて学習させれば、テキストとビジュアルの両方の要素を統合した複雑な対話に効果的に関与できることを示している。我々のモデルは、視覚的理解、推論、知識ベースの知覚を含む一般に公開されているベンチマークにおいて、賞賛に値する性能を発揮する。マルチモーダル対話タスクにおける顕著な性能だけでなく、我々のモデルは、時間に敏感な環境や、具現化エージェントのようなリアルタイムのインタラクションを必要とするシステムへの応用に新たな道を開く。このプロジェクトは{https://github.com/zhuyiche/llava-phi}で利用可能である。

要約(オリジナル)

In this paper, we introduce LLaVA-$\phi$ (LLaVA-Phi), an efficient multi-modal assistant that harnesses the power of the recently advanced small language model, Phi-2, to facilitate multi-modal dialogues. LLaVA-Phi marks a notable advancement in the realm of compact multi-modal models. It demonstrates that even smaller language models, with as few as 2.7B parameters, can effectively engage in intricate dialogues that integrate both textual and visual elements, provided they are trained with high-quality corpora. Our model delivers commendable performance on publicly available benchmarks that encompass visual comprehension, reasoning, and knowledge-based perception. Beyond its remarkable performance in multi-modal dialogue tasks, our model opens new avenues for applications in time-sensitive environments and systems that require real-time interaction, such as embodied agents. It highlights the potential of smaller language models to achieve sophisticated levels of understanding and interaction, while maintaining greater resource efficiency.The project is available at {https://github.com/zhuyiche/llava-phi}.

arxiv情報

著者 Yichen Zhu,Minjie Zhu,Ning Liu,Zhicai Ou,Xiaofeng Mou,Jian Tang
発行日 2024-01-04 16:07:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク