要約
タイトル:「ChartSumm:長短要約の自動化のための包括的なベンチマーク」
要約:
– 自動グラフからテキストへの要約は、視覚障害者にとって有効なツールであり、自然言語で表形式データの正確な洞察を提供することができる。
– データ駆動型モデルの重要な部分は、大規模かつ構造化されたデータセットである。
– 本論文では、84,363のグラフとメタデータ、そして様々なトピックとチャートタイプの説明を含むChartSummという大規模ベンチマークデータセットを提案する。
– 強力なベースラインモデルでの広範な実験により、これらのモデルはさまざまな自動評価指標で合理的なスコアを達成することにより、流暢で情報量豊かな要約を生成するが、錯覚や重要なデータポイントの欠落、チャート内の複雑な傾向の誤った説明などの課題に直面することが多い。
– 我々は、自動翻訳ツールを使ってChartSummを他の言語に拡張する可能性についても調査した。
– これにより、本データセットは将来の研究に向けた挑戦的なベンチマークとなる。
要約(オリジナル)
Automatic chart to text summarization is an effective tool for the visually impaired people along with providing precise insights of tabular data in natural language to the user. A large and well-structured dataset is always a key part for data driven models. In this paper, we propose ChartSumm: a large-scale benchmark dataset consisting of a total of 84,363 charts along with their metadata and descriptions covering a wide range of topics and chart types to generate short and long summaries. Extensive experiments with strong baseline models show that even though these models generate fluent and informative summaries by achieving decent scores in various automatic evaluation metrics, they often face issues like suffering from hallucination, missing out important data points, in addition to incorrect explanation of complex trends in the charts. We also investigated the potential of expanding ChartSumm to other languages using automated translation tools. These make our dataset a challenging benchmark for future research.
arxiv情報
著者 | Raian Rahman,Rizvi Hasan,Abdullah Al Farhad,Md Tahmid Rahman Laskar,Md. Hamjajul Ashmafee,Abu Raihan Mostofa Kamal |
発行日 | 2023-04-26 15:25:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI