要約
合成された命令を使用した監視された微調整は、LLMをドメイン固有のQAタスクに適応させるための一般的な慣行です。
ただし、合成された指示は、実際のユーザーの質問や予想される回答から逸脱しています。
この研究では、高品質の命令を生成するためにDeepHinkと呼ばれる新しいフレームワークを提案しています。
DeepHinkは、最初にいくつかの種子の質問を生成して、実際のユーザーの質問を模倣し、会話をシミュレートして隠されたユーザーのニーズを明らかにし、会話のコンテキストと検索されたドキュメントで回答を改良して、より包括的な回答を得ます。
実験は、DeepHinkが、関連性、完全性、明確さ、精度、実用性などのディメンション全体にわたって広告ドメインで設定されたRealユーザーテストのGPT-4-ターボ+RAGベースのアシスタントと比較して、7.92%の平均パフォーマンス改善を達成することを示しています。
要約(オリジナル)
Supervised fine-tuning with synthesized instructions has been a common practice for adapting LLMs to domain-specific QA tasks. However, the synthesized instructions deviate from real user questions and expected answers. This study proposes a novel framework called DeepThink to generate high-quality instructions. DeepThink first generates a few seed questions to mimic actual user questions, simulates conversations to uncover the hidden user needs, and refines the answer by conversational contexts and the retrieved documents for more comprehensive answers. Experiments demonstrate that DeepThink achieves an average performance improvement of 7.92% compared to a GPT-4-turbo+RAG-based assistant on the real user test set in the advertising domain across dimensions such as relevance, completeness, clarity, accuracy, and actionability.
arxiv情報
著者 | Yang Li,Mingxuan Luo,Yeyun Gong,Chen Lin,Jian Jiao,Yi Liu,Kaili Huang |
発行日 | 2025-02-13 13:22:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google