要約
同じ記事の 2 つのバージョンの違いを識別することは、ナレッジ ベースを更新し、記事がどのように進化するかを理解するのに役立ちます。
一対のテキストはさまざまな状況で自然に発生します。レポーターは同様のニュース記事を書き、信頼できる Web サイトの管理者は情報を最新に保つ必要があります。
同じ質問に対する回答が 2 つのバージョン間で異なる場合、対になったドキュメント間の事実上の変更を質問と回答のペアとして表すことを提案します。
質問と回答のペアは、更新されたコンテンツを柔軟かつ簡潔にキャプチャできることがわかりました。
対になった文書が提供されると、アノテーターは、一方のパッセージでは答えられるが、他方のパッセージでは答えが異なる、または答えられない質問を識別します。
759 の QA ペアと 1153 のペアのパッセージの例で構成される DIFFQG を公開します。
これらの質問は、明確で情報を求めるものであることを意図しており、複雑な編集を伴い、現在の質問生成および事実変更検出システムの機能を超えています。
私たちのデータセットは、文書の 2 つのバージョン間の変更を質問と回答として要約し、新しい方法で自動更新要約を研究しています。
要約(オリジナル)
Identifying the difference between two versions of the same article is useful to update knowledge bases and to understand how articles evolve. Paired texts occur naturally in diverse situations: reporters write similar news stories and maintainers of authoritative websites must keep their information up to date. We propose representing factual changes between paired documents as question-answer pairs, where the answer to the same question differs between two versions. We find that question-answer pairs can flexibly and concisely capture the updated contents. Provided with paired documents, annotators identify questions that are answered by one passage but answered differently or cannot be answered by the other. We release DIFFQG which consists of 759 QA pairs and 1153 examples of paired passages with no factual change. These questions are intended to be both unambiguous and information-seeking and involve complex edits, pushing beyond the capabilities of current question generation and factual change detection systems. Our dataset summarizes the changes between two versions of the document as questions and answers, studying automatic update summarization in a novel way.
arxiv情報
著者 | Jeremy R. Cole,Palak Jain,Julian Martin Eisenschlos,Michael J. Q. Zhang,Eunsol Choi,Bhuwan Dhingra |
発行日 | 2023-03-01 05:45:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google