要約
質問応答 (QA) のための大規模言語モデル (LLM) をドメイン固有のデータで拡張することは、幅広い注目を集めています。
ただし、ドメイン データはテキストや半構造化テーブルなどのハイブリッド形式で存在することが多く、情報をシームレスに統合する際に課題が生じています。
Table-to-Text Generation は、ハイブリッド データの均一なテキスト形式のコーパスへの変換を容易にする、有望なソリューションです。
この手法は NLP コミュニティによって広く研究されていますが、さまざまな表からテキストへの変換方法によって生成されたコーパスが QA システムのパフォーマンスにどのような影響を与えるかについての比較分析は現在行われていません。
この論文では、この研究ギャップに 2 つのステップで対処します。
まず、テーブルからテキストへの生成を、ドメイン ハイブリッド データを使用して LLM ベースの QA システムを強化するフレームワークに革新的に統合します。
次に、このフレームワークを実際の産業データで利用し、マークダウン形式、テンプレート シリアル化、TPLM ベースの手法、LLM ベースの手法の 4 つの代表的な手法を使用して、2 種類の QA システム (DSFT フレームワークと RAG フレームワーク) で広範な実験を実施します。
実験結果に基づいて、いくつかの経験的発見を引き出し、いくつかの方法の成功の背後にある根本的な理由を探ります。
私たちは、この研究結果が学術界および産業界にとって堅牢な QA システムを開発する際の貴重な参考資料となることを願っています。
要約(オリジナル)
Augmenting Large Language Models (LLMs) for Question Answering (QA) with domain specific data has attracted wide attention. However, domain data often exists in a hybrid format, including text and semi-structured tables, posing challenges for the seamless integration of information. Table-to-Text Generation is a promising solution by facilitating the transformation of hybrid data into a uniformly text-formatted corpus. Although this technique has been widely studied by the NLP community, there is currently no comparative analysis on how corpora generated by different table-to-text methods affect the performance of QA systems. In this paper, we address this research gap in two steps. First, we innovatively integrate table-to-text generation into the framework of enhancing LLM-based QA systems with domain hybrid data. Then, we utilize this framework in real-world industrial data to conduct extensive experiments on two types of QA systems (DSFT and RAG frameworks) with four representative methods: Markdown format, Template serialization, TPLM-based method, and LLM-based method. Based on the experimental results, we draw some empirical findings and explore the underlying reasons behind the success of some methods. We hope the findings of this work will provide a valuable reference for the academic and industrial communities in developing robust QA systems.
arxiv情報
著者 | Dehai Min,Nan Hu,Rihui Jin,Nuo Lin,Jiaoyan Chen,Yongrui Chen,Yu Li,Guilin Qi,Yun Li,Nijun Li,Qianren Wang |
発行日 | 2024-04-09 09:00:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google