要約
従来の人口統計推論手法は、主に正確にラベル付けされたデータの監視下で運用されてきましたが、変化する社会情勢や多様な文化的背景に適応するのに苦労しており、専門性が狭く、アプリケーションの精度が限られています。
最近、大規模マルチモーダル モデル (LMM) の出現により、視覚的な理解や説明など、さまざまな研究タスクにわたって変革の可能性が示されています。
この研究では、人口統計推論への LMM の適用を調査し、定量的評価と定性的評価の両方のベンチマークを導入します。
私たちの調査結果は、LMM が、的外れな予測をする傾向があるにもかかわらず、ゼロショット学習、解釈可能性、およびキュレートされていない「実際の」入力の処理において利点を持っていることを示しています。
LMM のパフォーマンスを強化し、教師あり学習ベースラインとの比較可能性を達成するために、ターゲット外の予測の問題を効果的に軽減する思考連鎖拡張プロンプト アプローチを提案します。
要約(オリジナル)
Conventional demographic inference methods have predominantly operated under the supervision of accurately labeled data, yet struggle to adapt to shifting social landscapes and diverse cultural contexts, leading to narrow specialization and limited accuracy in applications. Recently, the emergence of large multimodal models (LMMs) has shown transformative potential across various research tasks, such as visual comprehension and description. In this study, we explore the application of LMMs to demographic inference and introduce a benchmark for both quantitative and qualitative evaluation. Our findings indicate that LMMs possess advantages in zero-shot learning, interpretability, and handling uncurated ‘in-the-wild’ inputs, albeit with a propensity for off-target predictions. To enhance LMM performance and achieve comparability with supervised learning baselines, we propose a Chain-of-Thought augmented prompting approach, which effectively mitigates the off-target prediction issue.
arxiv情報
著者 | Yongsheng Yu,Jiebo Luo |
発行日 | 2024-05-24 16:26:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google