Quantifying Preferences of Vision-Language Models via Value Decomposition in Social Media Contexts

要約

視覚言語モデル (VLM) の急速な進歩により、マルチモーダルなアプリケーションが拡大しましたが、評価は物体認識などの基本的なタスクに焦点を当て、性格や価値観などの抽象的な側面が見落とされることがよくあります。
このギャップに対処するために、私たちは、シュワルツの価値次元に基づいて VLM を評価することを目的とした視覚的な質問応答ベンチマークである Value-Spectrum を導入します。これは、文化を超えて人々の信念や行動を導く核となる価値観を捉えます。
私たちは、TikTok、YouTube ショート、Instagram リールからソースされた 50,000 を超えるショートビデオのベクトル化されたデータベースを構築しました。これは、家族、健康、趣味、社会、テクノロジーなどの幅広いトピックを数か月にわたってカバーしています。
また、ビデオの閲覧と分析を自動化するための VLM エージェント パイプラインも開発しました。
Value-Spectrum で代表的な VLM をベンチマークすると、価値指向のコンテンツに対する反応に大きな違いがあり、ほとんどのモデルが快楽主義的なトピックを好むことがわかりました。
自然な好みを特定するだけでなく、明示的に促された場合に特定のペルソナを採用する VLM エージェントの能力を調査し、ロールプレイング シナリオにおけるモデルの適応性についての洞察を明らかにしました。
これらの調査結果は、価値ベースのタスクにおける VLM の進歩を追跡し、より洗練されたロールプレイング AI エージェントを開発するための包括的な評価セットとしての Value-Spectrum の可能性を強調しています。

要約(オリジナル)

The rapid advancement of Vision-Language Models (VLMs) has expanded multimodal applications, yet evaluations often focus on basic tasks like object recognition, overlooking abstract aspects such as personalities and values. To address this gap, we introduce Value-Spectrum, a visual question-answering benchmark aimed at assessing VLMs based on Schwartz’s value dimensions, which capture core values guiding people’s beliefs and actions across cultures. We constructed a vectorized database of over 50,000 short videos sourced from TikTok, YouTube Shorts, and Instagram Reels, covering multiple months and a wide array of topics such as family, health, hobbies, society, and technology. We also developed a VLM agent pipeline to automate video browsing and analysis. Benchmarking representative VLMs on Value-Spectrum reveals significant differences in their responses to value-oriented content, with most models exhibiting a preference for hedonistic topics. Beyond identifying natural preferences, we explored the ability of VLM agents to adopt specific personas when explicitly prompted, revealing insights into the models’ adaptability in role-playing scenarios. These findings highlight the potential of Value-Spectrum as a comprehensive evaluation set for tracking VLM advancements in value-based tasks and for developing more sophisticated role-playing AI agents.

arxiv情報

著者 Jingxuan Li,Yuning Yang,Shengqi Yang,Yizhou Zhao,Ying Nian Wu
発行日 2024-11-18 11:31:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク