SCITUNE: Aligning Large Language Models with Scientific Multimodal Instructions

要約

命令の微調整は、大規模言語モデル (LLM) を人間の意図に合わせるための一般的なパラダイムです。
このアイデアは人気があるにもかかわらず、既存の基礎モデルを科学分野、概念、目標に合わせて LLM を改善する際にはあまり検討されていません。
この研究では、LLM が科学的なマルチモーダルな指示に従う能力を向上させるための調整フレームワークとして SciTune を紹介します。
私たちの方法論をテストするために、人間が生成した科学的命令調整データセットを使用し、科学に焦点を当てた視覚と言語の理解のためにビジョン エンコーダーと LLM を接続する大規模なマルチモーダル モデル LLaMA-SciTune をトレーニングします。
機械生成データのみで微調整されたモデルと比較して、LLaMA-SciTune は、ScienceQA ベンチマークの平均および多くのサブカテゴリで人間のパフォーマンスを上回ります。

要約(オリジナル)

Instruction finetuning is a popular paradigm to align large language models (LLM) with human intent. Despite its popularity, this idea is less explored in improving the LLMs to align existing foundation models with scientific disciplines, concepts and goals. In this work, we present SciTune as a tuning framework to improve the ability of LLMs to follow scientific multimodal instructions. To test our methodology, we use a human-generated scientific instruction tuning dataset and train a large multimodal model LLaMA-SciTune that connects a vision encoder and LLM for science-focused visual and language understanding. In comparison to the models that are finetuned with machine generated data only, LLaMA-SciTune surpasses human performance on average and in many sub-categories on the ScienceQA benchmark.

arxiv情報

著者 Sameera Horawalavithana,Sai Munikoti,Ian Stewart,Henry Kvinge
発行日 2023-07-03 16:25:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク