要約
言語と視覚を含むマルチモーダルタスクに言語処理と知覚処理を最適に統合する方法は、重要な未解決の問題です。
この作業では、言語をトップダウン方式で使用して、高レベルの視覚的特徴に視覚的注意を向けるという一般的な慣行は最適ではない可能性があると主張します。
言語を使用して、ピクセルから高レベルの機能までのボトムアップ処理を調整することで、全体的なパフォーマンスにメリットをもたらすことができると仮定します。
私たちの主張を裏付けるために、U-Netベースのモデルを提案し、2つの言語ビジョンの高密度予測タスク(参照式のセグメンテーションと言語に基づく画像の色付け)で実験を行います。
トップダウンとボトムアップの視覚的分岐のいずれかまたは両方が言語に条件付けられている結果を比較します。
私たちの実験では、トップダウンの注意に加えてボトムアップの視覚処理のフィルターを制御するために言語を使用すると、両方のタスクでより良い結果が得られ、競争力のあるパフォーマンスが達成されることが明らかになりました。
私たちの言語分析は、特に入力テキストが低レベルの視覚的概念を参照している場合、ボトムアップコンディショニングがオブジェクトのセグメンテーションを改善することを示唆しています。
コードはhttps://github.com/ilkerkesen/bvprで入手できます。
要約(オリジナル)
How to best integrate linguistic and perceptual processing in multi-modal tasks that involve language and vision is an important open problem. In this work, we argue that the common practice of using language in a top-down manner, to direct visual attention over high-level visual features, may not be optimal. We hypothesize that the use of language to also condition the bottom-up processing from pixels to high-level features can provide benefits to the overall performance. To support our claim, we propose a U-Net-based model and perform experiments on two language-vision dense-prediction tasks: referring expression segmentation and language-guided image colorization. We compare results where either one or both of the top-down and bottom-up visual branches are conditioned on language. Our experiments reveal that using language to control the filters for bottom-up visual processing in addition to top-down attention leads to better results on both tasks and achieves competitive performance. Our linguistic analysis suggests that bottom-up conditioning improves segmentation of objects especially when input text refers to low-level visual concepts. Code is available at https://github.com/ilkerkesen/bvpr.
arxiv情報
著者 | İlker Kesen,Ozan Arkan Can,Erkut Erdem,Aykut Erdem,Deniz Yuret |
発行日 | 2022-06-23 14:02:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google