要約
画像キャプションは大きな注目を集めていますが、金融やヘルスケアなどの分野で一般的な時系列画像のキャプションの可能性は、ほとんど未開発のままです。
既存の時系列キャプションメソッドは通常、時系列の形状の一般的なドメインと存在する説明を提供し、実質的な再訓練なしに新しいドメインに適応するのに苦労しています。
これらの制限に対処するために、トレーニングなしで新しいドメインに適応できるタイムシリーズ画像のドメイン認識キャプションを生成するための検索ベースのフレームワークであるTadacapを紹介します。
TADACAPに基づいて、ターゲットドメインデータベース、つまりTADACAP-DIVERSEから多様な画像キャプションペアを取得する新しい検索戦略を提案します。
最先端の方法とアブレーションバリアントに対して、タダカップダイバーをベンチマークしました。
TADACAP-DIVERSEは、注釈の取り組みが大幅に少ない一方で、同等のセマンティックの精度を示しています。
要約(オリジナル)
While image captioning has gained significant attention, the potential of captioning time-series images, prevalent in areas like finance and healthcare, remains largely untapped. Existing time-series captioning methods typically offer generic, domain-agnostic descriptions of time-series shapes and struggle to adapt to new domains without substantial retraining. To address these limitations, we introduce TADACap, a retrieval-based framework to generate domain-aware captions for time-series images, capable of adapting to new domains without retraining. Building on TADACap, we propose a novel retrieval strategy that retrieves diverse image-caption pairs from a target domain database, namely TADACap-diverse. We benchmarked TADACap-diverse against state-of-the-art methods and ablation variants. TADACap-diverse demonstrates comparable semantic accuracy while requiring significantly less annotation effort.
arxiv情報
著者 | Elizabeth Fons,Rachneet Kaur,Zhen Zeng,Soham Palande,Tucker Balch,Svitlana Vyetrenko,Manuela Veloso |
発行日 | 2025-04-15 17:54:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google