要約
大規模言語モデル (LLM) は、幅広い自然言語タスクにおいて顕著なパフォーマンスを実証しています。
ただし、これらのモデルのサイズは増大し続けるため、計算コストの点で大きな課題に直面しています。
さらに、LLM はドメイン固有の効果的な理解を欠いていることが多く、これは航空や医療などの特殊な分野では特に重要です。
ドメイン固有の理解を促進するために、関連情報の注入による言語モデルへの新しい知識ベース統合アプローチである KITLM を提案します。
関連する知識を統合することにより、言語モデルのパフォーマンスが大幅に向上するだけでなく、同等のパフォーマンスを達成しながらモデルのサイズ要件も大幅に削減されます。
私たちが提案する知識注入モデルは、GPT-3.5-turbo と最先端の知識注入手法である SKILL の両方のパフォーマンスを上回り、MetaQA の完全一致スコアで 1.5 倍以上の向上を達成しました。
KITLM は、AeroQA を使用して航空分野でも同様のパフォーマンス向上を示しました。
既存の方法と比べて KITLM のパフォーマンスが大幅に向上したのは、ノイズを軽減しながら関連知識を注入したことに起因すると考えられます。
さらに、専門分野での知識注入研究を加速するために、2 つの厳選されたデータセットをリリースします。a) AeroQA、航空ドメイン内のマルチホップ質問応答用に設計された新しいベンチマーク データセット、b) Aviation Corpus、非構造化テキストから構築されたデータセット
国家運輸安全委員会の報告書から抜粋。
私たちの研究は、ドメイン固有の言語理解の分野の進歩に貢献し、質問応答における言語モデルのパフォーマンスを向上させる知識注入技術の可能性を示しています。
要約(オリジナル)
Large language models (LLMs) have demonstrated remarkable performance in a wide range of natural language tasks. However, as these models continue to grow in size, they face significant challenges in terms of computational costs. Additionally, LLMs often lack efficient domain-specific understanding, which is particularly crucial in specialized fields such as aviation and healthcare. To boost the domain-specific understanding, we propose, KITLM, a novel knowledge base integration approach into language model through relevant information infusion. By integrating pertinent knowledge, not only the performance of the language model is greatly enhanced, but the model size requirement is also significantly reduced while achieving comparable performance. Our proposed knowledge-infused model surpasses the performance of both GPT-3.5-turbo and the state-of-the-art knowledge infusion method, SKILL, achieving over 1.5 times improvement in exact match scores on the MetaQA. KITLM showed a similar performance boost in the aviation domain with AeroQA. The drastic performance improvement of KITLM over the existing methods can be attributed to the infusion of relevant knowledge while mitigating noise. In addition, we release two curated datasets to accelerate knowledge infusion research in specialized fields: a) AeroQA, a new benchmark dataset designed for multi-hop question-answering within the aviation domain, and b) Aviation Corpus, a dataset constructed from unstructured text extracted from the National Transportation Safety Board reports. Our research contributes to advancing the field of domain-specific language understanding and showcases the potential of knowledge infusion techniques in improving the performance of language models on question-answering.
arxiv情報
著者 | Ankush Agarwal,Sakharam Gawade,Amar Prakash Azad,Pushpak Bhattacharyya |
発行日 | 2023-08-07 14:42:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google