The First Place Solution of WSDM Cup 2024: Leveraging Large Language Models for Conversational Multi-Doc QA

要約

会話型マルチドキュメント質問応答は、取得したドキュメントと文脈に沿った会話に基づいて特定の質問に答えることを目的としています。
このペーパーでは、WSDM Cup 2024 の「Conversational Multi-Doc QA」チャレンジで優勝したアプローチを紹介します。このアプローチは、大規模言語モデル (LLM) の優れた自然言語理解と生成機能を活用しています。
まず LLM をタスクに適応させてから、ドメイン内のラベルなしデータを最大限に活用するハイブリッド トレーニング戦略を考案します。
さらに、高度なテキスト埋め込みモデルを採用して、無関係である可能性のあるドキュメントを除外し、モデル アンサンブルに対していくつかのアプローチが設計および比較されています。
これらすべての技術を備えた当社のソリューションは、WSDM Cup 2024 で最終的にライバルを大幅に抑えて 1 位にランクされました。
ソースコードは https://github.com/zhangzhao219/WSDM-Cup-2024 で公開されています。

要約(オリジナル)

Conversational multi-doc question answering aims to answer specific questions based on the retrieved documents as well as the contextual conversations. In this paper, we introduce our winning approach for the ‘Conversational Multi-Doc QA’ challenge in WSDM Cup 2024, which exploits the superior natural language understanding and generation capability of Large Language Models (LLMs). We first adapt LLMs to the task, then devise a hybrid training strategy to make the most of in-domain unlabeled data. Moreover, an advanced text embedding model is adopted to filter out potentially irrelevant documents and several approaches are designed and compared for the model ensemble. Equipped with all these techniques, our solution finally ranked 1st place in WSDM Cup 2024, surpassing its rivals to a large extent. The source codes have been released at https://github.com/zhangzhao219/WSDM-Cup-2024.

arxiv情報

著者 Yiming Li,Zhao Zhang
発行日 2024-02-28 15:05:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク