Summaries as Captions: Generating Figure Captions for Scientific Documents with Automated Text Summarization

要約

効果的な図のキャプションは、科学的数値を明確に理解するために重要ですが、科学記事ではキャプションの書き方が不十分であることが依然として一般的な問題です。
arXiv cs.CL の論文を調査したところ、キャプションの 53.88% がドメインの専門家によって役に立たない、または悪いと評価されており、より適切なキャプション生成の必要性が示されました。
図のキャプション生成における以前の取り組みでは、ビジュアル コンテンツと複雑なコンテキスト情報を理解するためのモデルを作成することを目的として、それをビジョン タスクとして扱っていました。
しかし、私たちの調査結果は、図のキャプションのトークンの 75% 以上が対応する図の言及段落と一致していることを示しており、言語技術がこのタスクを解決する大きな可能性を示しています。
この論文では、テキスト要約技術を使用して科学文書に図のキャプションを生成するための新しいアプローチを提示します。
私たちのアプローチは、対象の図を参照している文章を抽出し、それらを簡潔なキャプションに要約します。
実際の arXiv 論文 (81.2% が学会で発表された論文) での実験では、テキスト データのみを使用したこの方法は、自動評価と人間による評価の両方で以前の方法よりも優れていました。
さらに、(i) 著者が書いたキャプションの品質が低いこと、および (ii) 適切なキャプションの基準がないことの 2 つの主要な課題について、データ駆動型の調査を実施しました。
私たちのモデルは、元のキャプションが役に立たないと評価された図の改善されたキャプションを生成できることがわかり、30 を超えるトークンを持つキャプションでトレーニングされたモデルは、より高品質のキャプションを生成しました。
また、適切なキャプションには、図の概要が含まれていることが多いこともわかりました。
私たちの研究は、学術論文の図のキャプションを生成する際のテキスト要約の有効性を証明しており、以前のビジョンベースのアプローチよりも優れています。
私たちの調査結果は、将来の図のキャプション システムに実用的な意味を持ち、科学的なコミュニケーションの明瞭さを向上させます。

要約(オリジナル)

Effective figure captions are crucial for clear comprehension of scientific figures, yet poor caption writing remains a common issue in scientific articles. Our study of arXiv cs.CL papers found that 53.88% of captions were rated as unhelpful or worse by domain experts, showing the need for better caption generation. Previous efforts in figure caption generation treated it as a vision task, aimed at creating a model to understand visual content and complex contextual information. Our findings, however, demonstrate that over 75% of figure captions’ tokens align with corresponding figure-mentioning paragraphs, indicating great potential for language technology to solve this task. In this paper, we present a novel approach for generating figure captions in scientific documents using text summarization techniques. Our approach extracts sentences referencing the target figure, then summarizes them into a concise caption. In the experiments on real-world arXiv papers (81.2% were published at academic conferences), our method, using only text data, outperformed previous approaches in both automatic and human evaluations. We further conducted data-driven investigations into the two core challenges: (i) low-quality author-written captions and (ii) the absence of a standard for good captions. We found that our models could generate improved captions for figures with original captions rated as unhelpful, and the model trained on captions with more than 30 tokens produced higher-quality captions. We also found that good captions often include the high-level takeaway of the figure. Our work proves the effectiveness of text summarization in generating figure captions for scholarly articles, outperforming prior vision-based approaches. Our findings have practical implications for future figure captioning systems, improving scientific communication clarity.

arxiv情報

著者 Chieh-Yang Huang,Ting-Yao Hsu,Ryan Rossi,Ani Nenkova,Sungchul Kim,Gromit Yeuk-Yin Chan,Eunyee Koh,Clyde Lee Giles,Ting-Hao ‘Kenneth’ Huang
発行日 2023-02-23 20:39:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク