Pragmatic Evaluation of Clarifying Questions with Fact-Level Masking

要約

明確化するための質問 (ACQ) を行うことで有用な情報を導き出す能力は、質問応答 (QA) などの推論タスクにおける現実のコラボレーションの重要な要素です。
ただし、既存の自然言語 ACQ 課題では、情報自体の価値ではなく、単語の重複に基づいて世代を評価します。
特定の状況では多くの異なる質問が役立つ可能性があり、1 つの質問がさまざまな方法で表現される可能性があるため、単語の重複は質問生成には不適切な指標となることがよくあります。
代わりに、質問が取得する情報の価値に基づいて質問を実際的に評価することを提案します。
ここでは、推論タスクに役立つ答えをもたらす質問を生成する問題である、自然言語のプラグマティックな質問を明確にするための質問 (PACQ) の定義とフレームワークを紹介します。
また、特定の重要な事実を省略して自然言語データセットを自己教師あり PACQ データセットに変換する手順であるファクトレベル マスキング (FLM) についても説明します。
最後に、FLM を使用して HotpotQA データセットから PACQ データセットを生成し、それに対していくつかのゼロショット言語モデルを評価します。
私たちの実験では、現在のゼロショット モデルは、ヒューマン アノテーターと比較して、有用な情報を取得する質問をするのに苦労していることがわかりました。
これらの結果は、FLM データセットと PACQ フレームワークを使用して、質問生成やその他の言語モデルを客観的に評価し、改善する機会を示しています。

要約(オリジナル)

The ability to derive useful information by asking clarifying questions (ACQ) is an important element of real life collaboration on reasoning tasks, such as question answering (QA). Existing natural language ACQ challenges, however, evaluate generations based on word overlap rather than the value of the information itself. Word overlap is often an inappropriate metric for question generation since many different questions could be useful in a given situation, and a single question can be phrased many different ways. Instead, we propose evaluating questions pragmatically based on the value of the information they retrieve. Here we present a definition and framework for natural language pragmatic asking of clarifying questions (PACQ), the problem of generating questions that result in answers useful for a reasoning task. We also present fact-level masking (FLM), a procedure for converting natural language datasets into self-supervised PACQ datasets by omitting particular critical facts. Finally, we generate a PACQ dataset from the HotpotQA dataset using FLM and evaluate several zero-shot language models on it. Our experiments show that current zero-shot models struggle to ask questions that retrieve useful information, as compared to human annotators. These results demonstrate an opportunity to use FLM datasets and the PACQ framework to objectively evaluate and improve question generation and other language models.

arxiv情報

著者 Matthew Toles,Yukun Huang,Zhou Yu,Luis Gravano
発行日 2024-01-07 21:01:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク