要約
タイトル:MPMQA:製品マニュアル上のマルチモーダルの質問応答
要約:
– 製品マニュアル理解において、イラストや画像などの視覚的なコンテンツは重要な役割を果たす。
– 既存の製品マニュアル質問応答(PMQA)データセットは、視覚的なコンテンツを無視してテキストのみを保持する傾向がある。
– 多様なコンテンツの重要性を強調するために、マルチモーダル製品マニュアル質問応答(MPMQA)タスクが提案された。
– 各質問に対して、MPMQAはモデルがマルチモーダルなコンテンツを処理し、マルチモーダルな回答を提供することを必要とする。
– MPMQAをサポートするために、人間の注釈が付けられた大規模なデータセットPM209が構築された。
– PM209には、27の有名な消費者電子ブランドの209の製品マニュアルが含まれ、人間の注釈にはマニュアルコンテンツの6つの種類の意味的な領域と、22,021個の質問と回答のペアが含まれている。
– 特に、各回答は、テキストの文と関連するマニュアルからの視覚的な領域を含んでいます。
– 製品マニュアルの長さや、質問が常に少数のページに関連していることを考慮して、MPMQAは自然に2つのサブタスクに分割できます。
– 一番関連のあるページを取得し、その後マルチモーダルな回答を生成するための統合モデルが提案され、タスク固有の複数のモデルと同等の性能を発揮することができます。
– PM209データセットは、https://github.com/AIM3-RUC/MPMQAで入手可能です。
要約(オリジナル)
Visual contents, such as illustrations and images, play a big role in product manual understanding. Existing Product Manual Question Answering (PMQA) datasets tend to ignore visual contents and only retain textual parts. In this work, to emphasize the importance of multimodal contents, we propose a Multimodal Product Manual Question Answering (MPMQA) task. For each question, MPMQA requires the model not only to process multimodal contents but also to provide multimodal answers. To support MPMQA, a large-scale dataset PM209 is constructed with human annotations, which contains 209 product manuals from 27 well-known consumer electronic brands. Human annotations include 6 types of semantic regions for manual contents and 22,021 pairs of question and answer. Especially, each answer consists of a textual sentence and related visual regions from manuals. Taking into account the length of product manuals and the fact that a question is always related to a small number of pages, MPMQA can be naturally split into two subtasks: retrieving most related pages and then generating multimodal answers. We further propose a unified model that can perform these two subtasks all together and achieve comparable performance with multiple task-specific models. The PM209 dataset is available at https://github.com/AIM3-RUC/MPMQA.
arxiv情報
著者 | Liang Zhang,Anwen Hu,Jing Zhang,Shuo Hu,Qin Jin |
発行日 | 2023-04-19 13:48:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI