Mapping User Trust in Vision Language Models: Research Landscape, Challenges, and Prospects

要約

大きな画像テキストおよびビデオテキストデータセットで事前に訓練されたビジョン言語モデル(VLM)の迅速な採用は、これらのシステムを信頼するタイミングをユーザーに保護および通知することを求めています。
この調査では、さまざまな認知科学能力、コラボレーションモード、およびエージェント行動を含む学際的な分類法を通じて、ユーザー-VLM相互作用における信頼ダイナミクスに関する研究をレビューします。
将来のVLMユーザーとのワークショップからの文献の洞察と調査結果は、将来のVLMトラスト研究の予備要件を知らせます。

要約(オリジナル)

The rapid adoption of Vision Language Models (VLMs), pre-trained on large image-text and video-text datasets, calls for protecting and informing users about when to trust these systems. This survey reviews studies on trust dynamics in user-VLM interactions, through a multi-disciplinary taxonomy encompassing different cognitive science capabilities, collaboration modes, and agent behaviours. Literature insights and findings from a workshop with prospective VLM users inform preliminary requirements for future VLM trust studies.

arxiv情報

著者 Agnese Chiatti,Sara Bernardini,Lara Shibelski Godoy Piccolo,Viola Schiaffonati,Matteo Matteucci
発行日 2025-05-08 15:02:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY, cs.HC, cs.RO パーマリンク