Graph Guided Question Answer Generation for Procedural Question-Answering

要約

このホワイトペーパーでは、タスク固有の質問応答 (QA) に焦点を当てます。
この目的を達成するために、網羅的で高品質のトレーニング データを生成する方法を導入します。これにより、GPT バリアントと競合するコンパクトな (モバイル デバイス上で実行されるなど) タスク固有の QA モデルをトレーニングできるようになります。
主要な技術的実現要因は、大量のテキスト指示を取り込み、徹底的なドメイン内 QA トレーニング データを生成できる、手順テキストから自動的に質問と回答を生成する新しいメカニズムです。
現在の QA データ生成方法は、整形式で多様なデータを生成できますが、その非網羅的な性質は、QA モデルのトレーニングには最適ではありません。
対照的に、手順テキストの高度に構造化された側面を活用し、手順の各ステップと全体の流れをグラフとして表します。
次に、グラフ ノードを条件付けして、網羅的かつ制御可能な方法で QA ペアを自動的に生成します。
私たちの方法の包括的な評価は次のことを示しています: 1) 私たちのデータでトレーニングされた小さなモデルは、数桁小さいにもかかわらず、GPT3 や ChatGPT のパフォーマンスを上回る、ターゲットの QA タスクで優れたパフォーマンスを達成します。
2) セマンティック カバレッジは、下流の QA パフォーマンスの重要な指標です。
重要なのは、大規模な言語モデルは構文の多様性に優れていますが、これが必ずしも最終的な QA モデルの改善につながるわけではありません。
対照的に、私たちの方法によって提供されるより高いセマンティックカバレッジは、QA パフォーマンスにとって重要です。

要約(オリジナル)

In this paper, we focus on task-specific question answering (QA). To this end, we introduce a method for generating exhaustive and high-quality training data, which allows us to train compact (e.g., run on a mobile device), task-specific QA models that are competitive against GPT variants. The key technological enabler is a novel mechanism for automatic question-answer generation from procedural text which can ingest large amounts of textual instructions and produce exhaustive in-domain QA training data. While current QA data generation methods can produce well-formed and varied data, their non-exhaustive nature is sub-optimal for training a QA model. In contrast, we leverage the highly structured aspect of procedural text and represent each step and the overall flow of the procedure as graphs. We then condition on graph nodes to automatically generate QA pairs in an exhaustive and controllable manner. Comprehensive evaluations of our method show that: 1) small models trained with our data achieve excellent performance on the target QA task, even exceeding that of GPT3 and ChatGPT despite being several orders of magnitude smaller. 2) semantic coverage is the key indicator for downstream QA performance. Crucially, while large language models excel at syntactic diversity, this does not necessarily result in improvements on the end QA model. In contrast, the higher semantic coverage provided by our method is critical for QA performance.

arxiv情報

著者 Hai X. Pham,Isma Hadji,Xinnuo Xu,Ziedune Degutyte,Jay Rainey,Evangelos Kazakos,Afsaneh Fazly,Georgios Tzimiropoulos,Brais Martinez
発行日 2024-01-24 17:01:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク