要約
ゼロショットの常識的な質問応答 (QA) では、モデルが特定のベンチマークを超えた一般的な状況について推論する必要があります。
最先端のアプローチでは、CommonSense Knowledge Base (CSKB) から構築された QA ペアの言語モデルを微調整して、QA コンテキストにおけるより常識的な知識をモデルに装備します。
ただし、現在の QA 合成プロトコルは CSKB からのノイズを導入し、非文法的な質問や偽陰性オプションを生成する可能性があり、これがモデルの一般化能力を妨げます。
これらの問題に対処するために、QA の診断と改善のためのトレーニング ダイナミクス主導のフレームワークである QADYNAMICS を提案します。
私たちのアプローチは、質問レベルと選択肢レベルの両方で各 QA ペアのトレーニング ダイナミクスを分析し、有益でない QA ペアや誤ったラベルが付けられた選択肢や偽陰性の選択肢を削除することで、機械が検出可能なアーティファクトを破棄します。
広範な実験により、ChatGPT などの LLM を含めた合成データの 33% のみを使用しながら、すべてのベースラインを上回るパフォーマンスを示す私たちのアプローチの有効性が実証されました。
さらに、専門家の評価により、私たちのフレームワークが QA 合成の品質を大幅に向上させることが確認されています。
コードとモデル チェックポイントは https://github.com/HKUST-KnowComp/QaDynamics で入手できます。
要約(オリジナル)
Zero-shot commonsense Question-Answering (QA) requires models to reason about general situations beyond specific benchmarks. State-of-the-art approaches fine-tune language models on QA pairs constructed from CommonSense Knowledge Bases (CSKBs) to equip the models with more commonsense knowledge in a QA context. However, current QA synthesis protocols may introduce noise from the CSKBs and generate ungrammatical questions and false negative options, which impede the model’s ability to generalize. To address these issues, we propose QADYNAMICS, a training dynamics-driven framework for QA diagnostics and refinement. Our approach analyzes the training dynamics of each QA pair at both the question level and option level, discarding machine-detectable artifacts by removing uninformative QA pairs and mislabeled or false-negative options. Extensive experiments demonstrate the effectiveness of our approach, which outperforms all baselines while using only 33% of the synthetic data, even including LLMs such as ChatGPT. Moreover, expert evaluations confirm that our framework significantly improves the quality of QA synthesis. Our codes and model checkpoints are available at https://github.com/HKUST-KnowComp/QaDynamics.
arxiv情報
著者 | Haochen Shi,Weiqi Wang,Tianqing Fang,Baixuan Xu,Wenxuan Ding,Xin Liu,Yangqiu Song |
発行日 | 2023-10-17 14:27:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google