要約
日常の画像は抽象的な意味を伝える場合があり、私たちはそこから深い情報を記憶したり推測したりする必要があります。
このような人間らしい推論を促進するために、この研究では、従来のセグメント化や分類などの基本的なタスクを実行するのではなく、機械に、いつどこで撮影されたかを予測するよう教えています。
Horn の QR 理論に触発されて、私たちは 2 つのコンポーネントで構成される新しい QR-CLIP モデルを設計しました。1) quantity モジュールは、まず候補言語入力としてより多くのオープンワールドの知識を振り返ります。
2) 関連性モジュールは視覚と言語の手がかりを注意深く推定し、場所と時間を推測します。
実験では QR-CLIP の有効性が示されており、場所と時間の推論に関して、各タスクで平均約 10% および 130% の相対リフトで以前の SOTA を上回っています。
この研究は、場所と時間の推論の技術的基盤を構築し、オープンワールドの知識を効果的に導入することがタスクの万能薬の 1 つであることを示唆しています。
要約(オリジナル)
Daily images may convey abstract meanings that require us to memorize and infer profound information from them. To encourage such human-like reasoning, in this work, we teach machines to predict where and when it was taken rather than performing basic tasks like traditional segmentation or classification. Inspired by Horn’s QR theory, we designed a novel QR-CLIP model consisting of two components: 1) the Quantity module first retrospects more open-world knowledge as the candidate language inputs; 2) the Relevance module carefully estimates vision and language cues and infers the location and time. Experiments show our QR-CLIP’s effectiveness, and it outperforms the previous SOTA on each task by an average of about 10% and 130% relative lift in terms of location and time reasoning. This study lays a technical foundation for location and time reasoning and suggests that effectively introducing open-world knowledge is one of the panaceas for the tasks.
arxiv情報
著者 | Weimin Shi,Mingchen Zhuge,Dehong Gao,Zhong Zhou,Ming-Ming Cheng,Deng-Ping Fan |
発行日 | 2023-06-28 09:41:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google