Collaborative Image Understanding

要約

画像の内容を自動的に理解することは、実際には非常に関連性の高い問題です。
たとえば、e コマースやソーシャル メディアの設定でよくある問題は、ユーザーが提供した写真を自動的に分類することです。
現在、標準的なアプローチは、事前にトレーニングされた画像モデルをアプリケーション固有のデータで微調整することです。
ただし、組織は、画像に加えて、アプリケーションのコンテキスト、特にユーザーが提供されたオンライン コンテンツとどのようにやり取りしたか (表示、評価、タグ付けなど) でコラボレーション シグナルを収集することもよくあります。
このような信号は、通常、データから潜在的なユーザーとアイテムの表現を導き出すことによって、アイテムの推奨に使用されます。
この作業では、このような共同情報を活用して、新しい画像の分類プロセスを改善できることを示しています。
具体的には、補助タスクが共同潜在アイテム表現を再構築することであるマルチタスク学習フレームワークを提案します。
e コマースやソーシャル メディアのデータセットに関する一連の実験では、共同シグナルを考慮すると、画像分類の主要タスクのパフォーマンスが最大 9.1% 大幅に向上することが示されています。

要約(オリジナル)

Automatically understanding the contents of an image is a highly relevant problem in practice. In e-commerce and social media settings, for example, a common problem is to automatically categorize user-provided pictures. Nowadays, a standard approach is to fine-tune pre-trained image models with application-specific data. Besides images, organizations however often also collect collaborative signals in the context of their application, in particular how users interacted with the provided online content, e.g., in forms of viewing, rating, or tagging. Such signals are commonly used for item recommendation, typically by deriving latent user and item representations from the data. In this work, we show that such collaborative information can be leveraged to improve the classification process of new images. Specifically, we propose a multitask learning framework, where the auxiliary task is to reconstruct collaborative latent item representations. A series of experiments on datasets from e-commerce and social media demonstrates that considering collaborative signals helps to significantly improve the performance of the main task of image classification by up to 9.1%.

arxiv情報

著者 Koby Bibas,Oren Sar Shalom,Dietmar Jannach
発行日 2022-10-21 12:13:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク