KAM-CoT: Knowledge Augmented Multimodal Chain-of-Thoughts Reasoning

要約

大規模言語モデル (LLM) は、段階的な思考を可能にする思考連鎖 (CoT) を活用することにより、自然言語処理タスクで優れたパフォーマンスを実証しました。
LLM をマルチモーダル機能で拡張することが最近の関心となっていますが、計算コストが発生し、大量のハードウェア リソースが必要になります。
これらの課題に対処するために、私たちは、CoT 推論、ナレッジ グラフ (KG)、およびマルチモーダル タスクを包括的に理解するための複数のモダリティを統合するフレームワークである KAM-CoT を提案します。
KAM-CoT は、効果的な根拠と回答を生成するために、KG グラウンディングを伴う 2 段階のトレーニング プロセスを採用しています。
推論中に KG からの外部知識を組み込むことで、モデルは状況をより深く理解し、幻覚を減らし、回答の質を向上させます。
この知識拡張された CoT 推論により、モデルは外部コンテキストを必要とする質問を処理できるようになり、より多くの情報に基づいた回答が提供されます。
実験結果は、KAM-CoT が最先端の方法よりも優れていることを示しています。
ScienceQA データセットでは、平均精度 93.87% を達成し、GPT-3.5 (75.17%) を 18%、GPT-4 (83.99%) を 10% 上回りました。
注目すべきことに、KAM-CoT は一度にわずか 2 億 8,000 万のトレーニング可能なパラメータでこれらの結果を達成し、そのコスト効率と有効性を実証しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated impressive performance in natural language processing tasks by leveraging chain of thought (CoT) that enables step-by-step thinking. Extending LLMs with multimodal capabilities is the recent interest, but incurs computational cost and requires substantial hardware resources. To address these challenges, we propose KAM-CoT a framework that integrates CoT reasoning, Knowledge Graphs (KGs), and multiple modalities for a comprehensive understanding of multimodal tasks. KAM-CoT adopts a two-stage training process with KG grounding to generate effective rationales and answers. By incorporating external knowledge from KGs during reasoning, the model gains a deeper contextual understanding reducing hallucinations and enhancing the quality of answers. This knowledge-augmented CoT reasoning empowers the model to handle questions requiring external context, providing more informed answers. Experimental findings show KAM-CoT outperforms the state-of-the-art methods. On the ScienceQA dataset, we achieve an average accuracy of 93.87%, surpassing GPT-3.5 (75.17%) by 18% and GPT-4 (83.99%) by 10%. Remarkably, KAM-CoT achieves these results with only 280M trainable parameters at a time, demonstrating its cost-efficiency and effectiveness.

arxiv情報

著者 Debjyoti Mondal,Suraj Modi,Subhadarshi Panda,Rituraj Singh,Godawari Sudhakar Rao
発行日 2024-01-23 15:56:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク