T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Large Language Model Signals for Science Question Answering

要約

大規模言語モデル (LLM) は、最近、さまざまな自然言語処理 (NLP) タスクにおいて優れたパフォーマンスを実証しています。
彼らは、複雑な問題を解決するために思考連鎖 (CoT) 推論を実行する能力も示しました。
最近の研究では、人間が注釈を付けた高品質な CoT 理論的根拠を使用してマルチモーダル モデルを微調整することにより、科学の質問応答タスクなどの複雑なマルチモーダル シナリオにおける CoT 推論が検討されています。
ただし、高品質の COT 根拠を収集するには、通常、時間とコストがかかります。
さらに、外部の重要な情報が欠落しているため、注釈付きの理論的根拠はほとんど正確ではありません。
これらの問題に対処するために、LLM 信号を使用して科学の質問応答を教えることを目的とした \emph{T-SciQ} と呼ばれる新しい方法を提案します。
T-SciQ アプローチは、高品質の CoT 理論的根拠を教育信号として生成し、複雑なモダリティで CoT 理論的理論を実行するためにはるかに小さなモデルをトレーニングするように進歩しています。
さらに、単純な科学の質問と複雑な科学の質問に対する答えの問題に対して、ポリシーによってより効果的な教師データ サンプルを生成するための新しいデータ混合戦略を導入します。
広範な実験結果は、当社の T-SciQ メソッドが、ScienceQA ベンチマークで 96.18\% の精度で新しい最先端のパフォーマンスを達成することを示しています。
さらに、私たちのアプローチは、最も強力な微調整されたベースラインよりも 4.5\% 優れています。

要約(オリジナル)

Large Language Models (LLMs) have recently demonstrated exceptional performance in various Natural Language Processing (NLP) tasks. They have also shown the ability to perform chain-of-thought (CoT) reasoning to solve complex problems. Recent studies have explored CoT reasoning in complex multimodal scenarios, such as the science question answering task, by fine-tuning multimodal models with high-quality human-annotated CoT rationales. However, collecting high-quality COT rationales is usually time-consuming and costly. Besides, the annotated rationales are hardly accurate due to the external essential information missed. To address these issues, we propose a novel method termed \emph{T-SciQ} that aims at teaching science question answering with LLM signals. The T-SciQ approach generates high-quality CoT rationales as teaching signals and is advanced to train much smaller models to perform CoT reasoning in complex modalities. Additionally, we introduce a novel data mixing strategy to produce more effective teaching data samples by policy for simple and complex science question answer problems. Extensive experimental results show that our T-SciQ method achieves a new state-of-the-art performance on the ScienceQA benchmark, with an accuracy of 96.18\%. Moreover, our approach outperforms the most powerful fine-tuned baseline by 4.5\%.

arxiv情報

著者 Lei Wang,Yi Hu,Jiabang He,Xing Xu,Ning Liu,Hui Liu,Heng Tao Shen
発行日 2023-08-16 12:50:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク