Targeted Image Data Augmentation Increases Basic Skills Captioning Robustness

要約

人工ニューラル ネットワークは通常、コンテキスト外の例を一般化するのに苦労します。
この制限の理由の 1 つは、世界の潜在的な相関構造に関する部分的な情報しか組み込んでいないデータセットがあることが原因です。
この研究では、テキストから画像への生成ツールを使用して相関構造のギャップを埋めることにより、モデルの人間のような能力 (性別認識など) を向上させることに焦点を当てた、ターゲットを絞ったデータ拡張手法である TIDA (ターゲットを絞った画像編集データ拡張) を提案します。
モデル。
より具体的には、TIDA は、画像を説明するキャプション内の特定のスキル (例: 画像内の特定の性別の存在) を識別し、キャプションを変更 (例: 「女性」を「男性」に) してから、テキストから画像へのモデルを使用します。
小説のキャプションに一致するように画像を編集します (例: コンテキストを同一に保ちながら、女性を男性に一意に変更する)。
Flickr30K ベンチマークに基づいて、元のデータセットと比較して、性別、色、カウント能力に関連する TIDA で強化されたデータセットが、いくつかの画像キャプション指標のパフォーマンスを向上させることを示します。
さらに、古典的な BLEU メトリックに依存することに加えて、さまざまな方法でベースラインに対するモデルの改善の詳細な分析を実行します。
私たちはテキストと画像の生成モデルを比較し、ビジュアルエンコーディングとテキストデコーディングの点で画像キャプションモデルの動作が異なることを発見しました。

要約(オリジナル)

Artificial neural networks typically struggle in generalizing to out-of-context examples. One reason for this limitation is caused by having datasets that incorporate only partial information regarding the potential correlational structure of the world. In this work, we propose TIDA (Targeted Image-editing Data Augmentation), a targeted data augmentation method focused on improving models’ human-like abilities (e.g., gender recognition) by filling the correlational structure gap using a text-to-image generative model. More specifically, TIDA identifies specific skills in captions describing images (e.g., the presence of a specific gender in the image), changes the caption (e.g., ‘woman’ to ‘man’), and then uses a text-to-image model to edit the image in order to match the novel caption (e.g., uniquely changing a woman to a man while maintaining the context identical). Based on the Flickr30K benchmark, we show that, compared with the original data set, a TIDA-enhanced dataset related to gender, color, and counting abilities induces better performance in several image captioning metrics. Furthermore, on top of relying on the classical BLEU metric, we conduct a fine-grained analysis of the improvements of our models against the baseline in different ways. We compared text-to-image generative models and found different behaviors of the image captioning models in terms of encoding visual encoding and textual decoding.

arxiv情報

著者 Valentin Barriere,Felipe del Rio,Andres Carvallo De Ferari,Carlos Aspillaga,Eugenio Herrera-Berg,Cristian Buc Calderon
発行日 2023-11-17 15:47:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク