要約
大規模言語モデルは、構造化データ、複雑な推論、またはツールの使用を活用する困難なシナリオでは依然として苦労しています。
このペーパーでは、コストのかかる人による注釈に依存せずに、LLM に新しいスキルを教えるために使用できる新しい方法である Source2Synth を提案します。
Source2Synth はカスタム データ ソースを入力として受け取り、現実世界のソースに基づいた中間推論ステップを使用して合成データ ポイントを生成します。
Source2Synth は、応答可能性に基づいて低品質の世代を破棄することで、データセットの品質を向上させます。
このアプローチの一般性を、2 つの困難な領域に適用することで実証します。マルチホップ質問応答 (MHQA) での推論能力と、表形式質問応答 (TQA) でのツールの使用法をテストします。
私たちの方法では、微調整されたベースラインと比較して、WikiSQL の TQA で 25.51%、HotPotQA の MHQA で 22.57% パフォーマンスが向上しました。
要約(オリジナル)
Large Language Models still struggle in challenging scenarios that leverage structured data, complex reasoning, or tool usage. In this paper, we propose Source2Synth: a new method that can be used for teaching LLMs new skills without relying on costly human annotations. Source2Synth takes as input a custom data source and produces synthetic data points with intermediate reasoning steps grounded in real-world sources. Source2Synth improves the dataset quality by discarding low-quality generations based on their answerability. We demonstrate the generality of this approach by applying it to two challenging domains: we test reasoning abilities in multi-hop question answering (MHQA), and tool usage in tabular question answering (TQA). Our method improves performance by 25.51% for TQA on WikiSQL and 22.57% for MHQA on HotPotQA compared to the fine-tuned baselines.
arxiv情報
著者 | Alisia Lupidi,Carlos Gemmell,Nicola Cancedda,Jane Dwivedi-Yu,Jason Weston,Jakob Foerster,Roberta Raileanu,Maria Lomeli |
発行日 | 2024-09-12 17:39:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google