要約
SCICAPデータセットが2021年に開始されて以来、研究コミュニティは学術記事の科学者のキャプションを生成することに大きな進歩を遂げてきました。
2023年、最初のSCICAPチャレンジが行われ、グローバルチームが拡張されたSCICAPデータセットを使用して、さまざまな学術分野で多様なフィギュアタイプをキャプションするためのモデルを開発するよう招待しました。
同時に、テキスト生成モデルは迅速に進歩し、さまざまなビジョンと言語のタスクで印象的な機能を示した多くの強力な事前訓練を受けた大規模マルチモーダルモデル(LMM)が出現しました。
このペーパーでは、最初のScicap Challengeの概要を示し、データ上のさまざまなモデルのパフォーマンスを詳細に説明し、Fields Stateのスナップショットをキャプチャします。
プロの編集者は、他のすべてのモデルや著者が書いた元のキャプションよりもGPT-4Vによって生成されたフィギュアキャプションを圧倒的に好むことがわかりました。
この重要な発見に続いて、この質問に答えるために詳細な分析を実施しました。高度なLMMSは、科学者のキャプションを生成するタスクを解決しましたか?
要約(オリジナル)
Since the SCICAP datasets launch in 2021, the research community has made significant progress in generating captions for scientific figures in scholarly articles. In 2023, the first SCICAP Challenge took place, inviting global teams to use an expanded SCICAP dataset to develop models for captioning diverse figure types across various academic fields. At the same time, text generation models advanced quickly, with many powerful pre-trained large multimodal models (LMMs) emerging that showed impressive capabilities in various vision-and-language tasks. This paper presents an overview of the first SCICAP Challenge and details the performance of various models on its data, capturing a snapshot of the fields state. We found that professional editors overwhelmingly preferred figure captions generated by GPT-4V over those from all other models and even the original captions written by authors. Following this key finding, we conducted detailed analyses to answer this question: Have advanced LMMs solved the task of generating captions for scientific figures?
arxiv情報
著者 | Ting-Yao E. Hsu,Yi-Li Hsu,Shaurya Rohatgi,Chieh-Yang Huang,Ho Yin Sam Ng,Ryan Rossi,Sungchul Kim,Tong Yu,Lun-Wei Ku,C. Lee Giles,Ting-Hao K. Huang |
発行日 | 2025-01-31 18:02:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google