DiscoSG: Towards Discourse-Level Text Scene Graph Parsing through Iterative Graph Refinement

要約

Vision-Language Models(VLMS)は、談話レベルのマルチセンテンスの視覚的説明を生成するようになりました。テキストシーングラフの挑戦は、最初はシングルセンテンスキャプションからグラフへのマッピング用に設計されています。
現在のアプローチは、通常、談話入力のために文レベルの解析出力をマージします。多くの場合、断続的なグラフと下流のVLMタスクのパフォーマンスを分解し、断片化したグラフのような現象が欠けています。
これに対処するために、画像用の400の専門家と合成されたマルチセンテンスキャプションペア400で構成されるデータセットDISCOSG-DSでサポートされている新しいタスク、談話レベルのテキストシーングラフ解析(DISCOSG)を紹介します。
各キャプションは平均9文で、各グラフには既存のデータセットのキャプションよりも少なくとも3倍のトリプルが含まれています。
Discosg-DSでの大きなPLMS(つまり、GPT-4)は、最高の文をマークするベースラインでスパイスを約48%改善し、高い推論コストと制限的なライセンスをオープンソースの使用を妨げ、より小さな微細なPLMSが複雑なグラフで闘っています。
1つの小さなPLMを使用してベースグラフをドラフトするDiscosg-Refinerを提案し、2番目のPLMを使用してグラフの編集を繰り返し提案し、フルグラフ生成のオーバーヘッドを削減します。
2つのFlan-T5ベースモデルを使用して、Discosg-Refinerは、GPT-4の86倍の推論を達成しながら、最高のベースラインよりも約30%スパイスを改善します。
また、談話レベルのキャプション評価や幻覚検出などの下流のVLMタスクを一貫して改善します。
コードとデータは、https://github.com/shaoqlin/discosgで入手できます

要約(オリジナル)

Vision-Language Models (VLMs) now generate discourse-level, multi-sentence visual descriptions, challenging text scene graph parsers originally designed for single-sentence caption-to-graph mapping. Current approaches typically merge sentence-level parsing outputs for discourse input, often missing phenomena like cross-sentence coreference, resulting in fragmented graphs and degraded downstream VLM task performance. To address this, we introduce a new task, Discourse-level text Scene Graph parsing (DiscoSG), supported by our dataset DiscoSG-DS, which comprises 400 expert-annotated and 8,430 synthesised multi-sentence caption-graph pairs for images. Each caption averages 9 sentences, and each graph contains at least 3 times more triples than those in existing datasets. While fine-tuning large PLMs (i.e., GPT-4) on DiscoSG-DS improves SPICE by approximately 48% over the best sentence-merging baseline, high inference cost and restrictive licensing hinder its open-source use, and smaller fine-tuned PLMs struggle with complex graphs. We propose DiscoSG-Refiner, which drafts a base graph using one small PLM, then employs a second PLM to iteratively propose graph edits, reducing full-graph generation overhead. Using two Flan-T5-Base models, DiscoSG-Refiner still improves SPICE by approximately 30% over the best baseline while achieving 86 times faster inference than GPT-4. It also consistently improves downstream VLM tasks like discourse-level caption evaluation and hallucination detection. Code and data are available at: https://github.com/ShaoqLin/DiscoSG

arxiv情報

著者 Shaoqing Lin,Chong Teng,Fei Li,Donghong Ji,Lizhen Qu,Zhuang Li
発行日 2025-06-18 16:00:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク