要約
我々は、多様な入力モダリティ信号 (つまり、テキスト、画像、ビデオ、オーディオ、IMU モーション センサー) を推論し、テキスト応答を生成する統合モデルである Any-Modality Augmented Language Model (AnyMAL) を紹介します。
AnyMAL は、LLaMA-2 (70B) を含む最先端の LLM の強力なテキストベースの推論能力を継承し、事前トレーニングされたアライナー モジュールを通じてモダリティ固有の信号を結合テキスト空間に変換します。
マルチモーダル LLM の機能をさらに強化するために、手動で収集したマルチモーダル命令セットを使用してモデルを微調整し、単純な QA を超えたさまざまなトピックやタスクをカバーします。
当社は人間による評価と自動評価の両方を含む包括的な実証分析を実施し、さまざまな複合タスクで最先端のパフォーマンスを実証します。
要約(オリジナル)
We present Any-Modality Augmented Language Model (AnyMAL), a unified model that reasons over diverse input modality signals (i.e. text, image, video, audio, IMU motion sensor), and generates textual responses. AnyMAL inherits the powerful text-based reasoning abilities of the state-of-the-art LLMs including LLaMA-2 (70B), and converts modality-specific signals to the joint textual space through a pre-trained aligner module. To further strengthen the multimodal LLM’s capabilities, we fine-tune the model with a multimodal instruction set manually collected to cover diverse topics and tasks beyond simple QAs. We conduct comprehensive empirical analysis comprising both human and automatic evaluations, and demonstrate state-of-the-art performance on various multimodal tasks.
arxiv情報
著者 | Seungwhan Moon,Andrea Madotto,Zhaojiang Lin,Tushar Nagarajan,Matt Smith,Shashank Jain,Chun-Fu Yeh,Prakash Murugesan,Peyman Heidari,Yue Liu,Kavya Srinet,Babak Damavandi,Anuj Kumar |
発行日 | 2023-09-27 22:50:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google