T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Large Language Model Signals for Science Question Answering

要約

タイトル:大規模言語モデルシグナルを用いた科学的質問応答のためのチェーンオブ思考推論の教育について(T-SciQ)

要約:

– 大規模言語モデル(LLMs)が最近、自然言語処理(NLP)タスクで優れた性能を発揮しており、複雑な問題を解決するためにチェーンオブ思考(CoT)推論を行うことができることがわかった。
– 科学的質問応答タスクのような複雑なマルチモーダルシナリオでCoT推論を探究する研究が最近進展してきたが、高品質のCoT合理性を収集することは通常時間がかかり、費用がかかる。さらに注釈付きの合理性は、重複する情報が含まれたり、必要な情報が不足していたりするため、精度が保証されない。
– これらの問題に対処するために、T-SciQという新しい手法を提案している。T-SciQアプローチは、LLMシグナルを使った科学的質問応答の教育を目的とし、高品質のCoT合理性を生成して、より小型のモデルを訓練して複雑なモーダリティでCoT推論を実行するように進化させている。
– さらに、新しいデータミキシング戦略を導入して、簡単で複雑な科学的質問応答に対して、より効果的な教育データサンプルを生成している。
– 実験的な結果は、T-SciQ手法がScienceQAベンチマークで新たな最高の成果を達成し、96.18%の精度を示したことを示している。さらに、当手法は、最も強力なファインチューニングされたベースラインよりも4.5%性能が向上した。

要約(オリジナル)

Large Language Models (LLMs) have recently demonstrated exceptional performance in various Natural Language Processing (NLP) tasks. They have also shown the ability to perform chain-of-thought (CoT) reasoning to solve complex problems. Recent studies have explored CoT reasoning in complex multimodal scenarios, such as the science question answering task, by fine-tuning multimodal models with high-quality human-annotated CoT rationales. However, collecting high-quality COT rationales is usually time-consuming and costly. Besides, the annotated rationales are hardly accurate due to the redundant information involved or the essential information missed. To address these issues, we propose a novel method termed \emph{T-SciQ} that aims at teaching science question answering with LLM signals. The T-SciQ approach generates high-quality CoT rationales as teaching signals and is advanced to train much smaller models to perform CoT reasoning in complex modalities. Additionally, we introduce a novel data mixing strategy to produce more effective teaching data samples for simple and complex science question answer problems. Extensive experimental results show that our T-SciQ method achieves a new state-of-the-art performance on the ScienceQA benchmark, with an accuracy of 96.18%. Moreover, our approach outperforms the most powerful fine-tuned baseline by 4.5%.

arxiv情報

著者 Lei Wang,Yi Hu,Jiabang He,Xing Xu,Ning Liu,Hui Liu,Heng Tao Shen
発行日 2023-05-05 11:56:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク