LLaVA-Phi: Efficient Multi-Modal Assistant with Small Language Model

要約

この論文では、最近進歩した小型言語モデルである Phi-2 の力を利用してマルチモーダルな対話を容易にする、効率的なマルチモーダル アシスタントである LLaVA-$\phi$ (LLaVA-Phi) を紹介します。
LLaVA-Phi は、コンパクトなマルチモーダル モデルの分野で顕著な進歩を遂げています。
これは、高品質のコーパスでトレーニングされていれば、パラメータがわずか 27 億の小さな言語モデルであっても、テキスト要素と視覚要素の両方を統合する複雑な対話に効果的に参加できることを示しています。
私たちのモデルは、視覚的な理解、推論、知識ベースの認識を含む、一般に入手可能なベンチマークで賞賛に値するパフォーマンスを提供します。
私たちのモデルは、マルチモーダルな対話タスクにおける顕著なパフォーマンスを超えて、時間に敏感な環境や、身体化されたエージェントなどのリアルタイムの対話を必要とするシステムにおけるアプリケーションに新しい道を開きます。
これは、より高いリソース効率を維持しながら、より小さな言語モデルが洗練されたレベルの理解と対話を達成できる可能性を強調しています。このプロジェクトは、{https://github.com/zhuyiche/llava-phi} で入手できます。

要約(オリジナル)

In this paper, we introduce LLaVA-$\phi$ (LLaVA-Phi), an efficient multi-modal assistant that harnesses the power of the recently advanced small language model, Phi-2, to facilitate multi-modal dialogues. LLaVA-Phi marks a notable advancement in the realm of compact multi-modal models. It demonstrates that even smaller language models, with as few as 2.7B parameters, can effectively engage in intricate dialogues that integrate both textual and visual elements, provided they are trained with high-quality corpora. Our model delivers commendable performance on publicly available benchmarks that encompass visual comprehension, reasoning, and knowledge-based perception. Beyond its remarkable performance in multi-modal dialogue tasks, our model opens new avenues for applications in time-sensitive environments and systems that require real-time interaction, such as embodied agents. It highlights the potential of smaller language models to achieve sophisticated levels of understanding and interaction, while maintaining greater resource efficiency.The project is available at {https://github.com/zhuyiche/llava-phi}.

arxiv情報

著者 Yichen Zhu,Minjie Zhu,Ning Liu,Zhicai Ou,Xiaofeng Mou,Jian Tang
発行日 2024-02-09 18:38:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク