要約
【タイトル】コミュニケーションの崩壊:人間とニューラルキャプショニングの相互理解度が低いことについて
【要約】
– 人間によって作成されたキャプションと、ニューラルキャプショナーによって生成されたキャプションのどちらを入力として与えるかに基づいて、ニューラルキャプションに基づく画像リトリーバーの0ショットパフォーマンスを比較する。
– 我々は、最近導入されたImageCoDeデータセット(Krojer et al.、2022)でこの比較を行い、同じ画像にほぼ同じ難解なディストラクターを含む。
– 難しい課題にも関わらず、ニューラルリトリーバーは、人間のキャプションではなくニューラルキャプションを与えられた場合に、はるかに高いパフォーマンスを発揮することが分かった。
– さらに驚くべきことに、同じニューラルキャプションを被験者に与えた場合、彼らのリトリーバーのパフォーマンスはほぼ偶然の水準であった。
– この結果は、ニューラルモデルの「言語」が英語に似ているとしても、この表層上の類似性が深く誤解を招く可能性があるという、増大する根拠に加わるものである。
要約(オリジナル)
We compare the 0-shot performance of a neural caption-based image retriever when given as input either human-produced captions or captions generated by a neural captioner. We conduct this comparison on the recently introduced ImageCoDe data-set (Krojer et al., 2022) which contains hard distractors nearly identical to the images to be retrieved. We find that the neural retriever has much higher performance when fed neural rather than human captions, despite the fact that the former, unlike the latter, were generated without awareness of the distractors that make the task hard. Even more remarkably, when the same neural captions are given to human subjects, their retrieval performance is almost at chance level. Our results thus add to the growing body of evidence that, even when the “language” of neural models resembles English, this superficial resemblance might be deeply misleading.
arxiv情報
著者 | Roberto Dessì,Eleonora Gualdoni,Francesca Franzon,Gemma Boleda,Marco Baroni |
発行日 | 2023-04-27 09:24:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI