Multiview Representation Learning from Crowdsourced Triplet Comparisons

要約

クラウドソーシングは、多くの分野で大規模なデータ収集に利用されている。三重の類似性比較はクラウドソーシングタスクの一種であり、クラウドワーカーは「与えられた3つの物体のうち、どの2つがより似ているか」という質問を受けるが、これは人間にとって比較的簡単に答えられるものである。しかし、比較は複数の視点、すなわち、色や形などの異なる独立した属性に基づいて行われることがある。また、同じ3つの物体であっても、それぞれの視点によって異なる結果が得られる場合がある。先行研究において、マルチビュー埋め込みを生成するアルゴリズムが提案されているが、(1)既存のアルゴリズムでは、新しいサンプルに対してマルチビュー埋め込みを独立して予測できない、(2)人によって異なるビューを好む場合がある、という少なくとも2つの問題を含むものであった。本研究では、マルチビュー表現学習問題を解決するために、エンドツーエンドの帰納的ディープラーニングフレームワークを提案する。その結果、我々の提案する方法は、各ビューがオブジェクトの独立した属性に対応する、任意のオブジェクトのマルチビュー埋め込みを得ることができることを示す。クラウドソーシングプラットフォームから2つのデータセットを収集し、従来のベースライン手法と比較した提案手法の性能を実験的に調査した。

要約(オリジナル)

Crowdsourcing has been used to collect data at scale in numerous fields. Triplet similarity comparison is a type of crowdsourcing task, in which crowd workers are asked the question “among three given objects, which two are more similar?”, which is relatively easy for humans to answer. However, the comparison can be sometimes based on multiple views, i.e., different independent attributes such as color and shape. Each view may lead to different results for the same three objects. Although an algorithm was proposed in prior work to produce multiview embeddings, it involves at least two problems: (1) the existing algorithm cannot independently predict multiview embeddings for a new sample, and (2) different people may prefer different views. In this study, we propose an end-to-end inductive deep learning framework to solve the multiview representation learning problem. The results show that our proposed method can obtain multiview embeddings of any object, in which each view corresponds to an independent attribute of the object. We collected two datasets from a crowdsourcing platform to experimentally investigate the performance of our proposed approach compared to conventional baseline methods.

arxiv情報

著者 Xiaotian Lu,Jiyi Li,Koh Takeuchi,Hisashi Kashima
発行日 2023-02-08 10:51:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.HC パーマリンク