要約
大きな画像テキストおよびビデオテキストデータセットで事前に訓練されたビジョン言語モデル(VLM)の迅速な採用は、これらのシステムを信頼するタイミングをユーザーに保護および通知することを求めています。
この調査では、さまざまな認知科学能力、コラボレーションモード、およびエージェント行動を含む学際的な分類法を通じて、ユーザー-VLM相互作用における信頼ダイナミクスに関する研究をレビューします。
将来のVLMユーザーとのワークショップからの文献の洞察と調査結果は、将来のVLMトラスト研究の予備要件を知らせます。
要約(オリジナル)
The rapid adoption of Vision Language Models (VLMs), pre-trained on large image-text and video-text datasets, calls for protecting and informing users about when to trust these systems. This survey reviews studies on trust dynamics in user-VLM interactions, through a multi-disciplinary taxonomy encompassing different cognitive science capabilities, collaboration modes, and agent behaviours. Literature insights and findings from a workshop with prospective VLM users inform preliminary requirements for future VLM trust studies.
arxiv情報
著者 | Agnese Chiatti,Sara Bernardini,Lara Shibelski Godoy Piccolo,Viola Schiaffonati,Matteo Matteucci |
発行日 | 2025-05-08 15:02:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google