X-VILA: Cross-Modality Alignment for Large Language Model

要約

X-VILA は、画像、ビデオ、オーディオ モダリティを組み込むことで大規模言語モデル (LLM) の機能を拡張するように設計されたオムニモダリティ モデルです。
モダリティ固有のエンコーダを LLM 入力に、拡散デコーダを LLM 出力に調整することにより、X-VILA はクロスモダリティの理解、推論、生成を実現します。
このクロスモダリティの調整を容易にするために、効果的なインターリーブされた任意のモダリティから任意のモダリティの命令に従うデータセットを厳選します。
さらに、現在のクロスモダリティ位置合わせ方法には、視覚情報の損失を引き起こす重大な問題があることを特定しました。
この問題に対処するために、視覚的な埋め込みハイウェイ モジュールを使用した視覚的な位置合わせメカニズムを提案します。
次に、X-VILA をトレーニングするためのリソース効率の高いレシピを紹介します。これは、任意の対任意のモダリティ会話で熟練度を示し、以前のアプローチを大幅に上回ります。
X-VILA は、同様のトレーニング データがない場合でも、モダリティ全体での創発的な特性も示します。
このプロジェクトはオープンソース化されます。

要約(オリジナル)

We introduce X-VILA, an omni-modality model designed to extend the capabilities of large language models (LLMs) by incorporating image, video, and audio modalities. By aligning modality-specific encoders with LLM inputs and diffusion decoders with LLM outputs, X-VILA achieves cross-modality understanding, reasoning, and generation. To facilitate this cross-modality alignment, we curate an effective interleaved any-to-any modality instruction-following dataset. Furthermore, we identify a significant problem with the current cross-modality alignment method, which results in visual information loss. To address the issue, we propose a visual alignment mechanism with a visual embedding highway module. We then introduce a resource-efficient recipe for training X-VILA, that exhibits proficiency in any-to-any modality conversation, surpassing previous approaches by large margins. X-VILA also showcases emergent properties across modalities even in the absence of similar training data. The project will be made open-source.

arxiv情報

著者 Hanrong Ye,De-An Huang,Yao Lu,Zhiding Yu,Wei Ping,Andrew Tao,Jan Kautz,Song Han,Dan Xu,Pavlo Molchanov,Hongxu Yin
発行日 2024-05-29 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク