Enhancing textual textbook question answering with large language models and retrieval augmented generation

要約

教科書質問応答 (TQA) は、複雑な質問に答えるために必要なコンテキストの複雑な性質により、人工知能における困難なタスクです。
以前の研究によりこのタスクは改善されましたが、テキスト TQA には依然として、推論が弱いことや、長いコンテキストでコンテキスト情報をキャプチャできないことなど、いくつかの制限があります。
我々は、概念が異なるレッスンにまたがる領域外のシナリオを処理するための検索拡張生成 (RAG) 技術を組み込んだフレームワーク (PLRTQA) を提案します。また、転移学習を利用して長いコンテキストを処理し、推論能力を強化します。
私たちのアーキテクチャはベースラインを上回り、テキスト形式の多肢選択式質問について、検証セットで 4.12%、テスト セットで 9.84% の精度向上を達成しました。
このホワイト ペーパーは、テキスト形式の TQA における課題の解決に焦点を当てていますが、より複雑な教育シナリオに対処するために視覚的なコンポーネントが統合されるマルチモーダル TQA における将来の作業の基礎を提供します。
コード: https://github.com/hessaAlawwad/PLR-TQA

要約(オリジナル)

Textbook question answering (TQA) is a challenging task in artificial intelligence due to the complex nature of context needed to answer complex questions. Although previous research has improved the task, there are still some limitations in textual TQA, including weak reasoning and inability to capture contextual information in the lengthy context. We propose a framework (PLRTQA) that incorporates the retrieval augmented generation (RAG) technique to handle the out-of-domain scenario where concepts are spread across different lessons, and utilize transfer learning to handle the long context and enhance reasoning abilities. Our architecture outperforms the baseline, achieving an accuracy improvement of 4. 12% in the validation set and 9. 84% in the test set for textual multiple-choice questions. While this paper focuses on solving challenges in the textual TQA, It provides a foundation for future work in multimodal TQA where the visual components are integrated to address more complex educational scenarios. Code: https://github.com/hessaAlawwad/PLR-TQA

arxiv情報

著者 Hessa Abdulrahman Alawwad,Areej Alhothali,Usman Naseem,Ali Alkhathlan,Amani Jamal
発行日 2025-01-22 07:14:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク