要約
現在の画像キャプションシステムには、説明テキストを特定の視覚要素にリンクする機能がなく、出力を検証するのが難しくなります。
最近のアプローチはいくつかの接地機能を提供しますが、複数の参照にわたってオブジェクトのアイデンティティを追跡したり、アクションとオブジェクトの両方を同時に接地することはできません。
一貫したオブジェクト参照追跡とアクションオブジェクトのリンクを可能にする新しいIDベースの接地システムを提案し、77ムービーの52,016画像を含むデータセットを提示し、344の人間が解決し、52,016が自動的に生成されたキャプションを備えています。
各キャプションは、対応するオブジェクトにアクションをリンクしながらオブジェクトのIDを維持するタグシステムを使用して、検出されたオブジェクト(132クラス)とアクション(51クラス)に接地されています。
私たちのアプローチは、参照追跡、明示的なアクションオブジェクトのリンク、およびK-Meansクラスタリングによる背景要素のセグメンテーションのための永続的なオブジェクトIDを特徴としています。
Gmeteorを提案します。これは、キャプションの品質と接地精度を組み合わせたメトリックを提案し、Pixtral-12bを微調整することによりベースラインパフォーマンスを確立します。
人間の評価は、コヒーレントオブジェクト参照を使用して検証可能な説明を作成する際のアプローチの有効性を示しています。
要約(オリジナル)
Current image captioning systems lack the ability to link descriptive text to specific visual elements, making their outputs difficult to verify. While recent approaches offer some grounding capabilities, they cannot track object identities across multiple references or ground both actions and objects simultaneously. We propose a novel ID-based grounding system that enables consistent object reference tracking and action-object linking, and present GroundCap, a dataset containing 52,016 images from 77 movies, with 344 human-annotated and 52,016 automatically generated captions. Each caption is grounded on detected objects (132 classes) and actions (51 classes) using a tag system that maintains object identity while linking actions to the corresponding objects. Our approach features persistent object IDs for reference tracking, explicit action-object linking, and segmentation of background elements through K-means clustering. We propose gMETEOR, a metric combining caption quality with grounding accuracy, and establish baseline performance by fine-tuning Pixtral-12B. Human evaluation demonstrates our approach’s effectiveness in producing verifiable descriptions with coherent object references.
arxiv情報
著者 | Daniel A. P. Oliveira,Lourenço Teodoro,David Martins de Matos |
発行日 | 2025-02-19 17:31:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google