RACQUET: Unveiling the Dangers of Overlooked Referential Ambiguity in Visual LLMs

要約

あいまいさの解決は効果的なコミュニケーションの鍵です。
人間は会話のグラウンディング戦略を通じて難なく曖昧さに対処しますが、現在の言語モデルがこれらの戦略をどの程度エミュレートできるかは依然として不明です。
この研究では、曖昧さの異なる側面を対象として慎重に厳選されたデータセットである RACQUET を導入することにより、画像ベースの質問応答における参照の曖昧さを調べます。
一連の評価を通じて、応答のあいまいさに対処する際の最先端の大規模マルチモーダル言語モデルの過信による重大な制限と問題を明らかにしました。
自信過剰の問題は、RACQUET-BIAS に特に関係します。RACQUET-BIAS は、重要ではあるが十分に調査されていない問題を分析するために設計されたサブセットです。つまり、曖昧さに対処しないと、紋切り型で社会的に偏った反応につながります。
私たちの結果は、望ましくない固定概念に頼ることなく不確実性に対処するための堅牢な戦略をモデルに装備することが緊急であることを強調しています。

要約(オリジナル)

Ambiguity resolution is key to effective communication. While humans effortlessly address ambiguity through conversational grounding strategies, the extent to which current language models can emulate these strategies remains unclear. In this work, we examine referential ambiguity in image-based question answering by introducing RACQUET, a carefully curated dataset targeting distinct aspects of ambiguity. Through a series of evaluations, we reveal significant limitations and problems of overconfidence of state-of-the-art large multimodal language models in addressing ambiguity in their responses. The overconfidence issue becomes particularly relevant for RACQUET-BIAS, a subset designed to analyze a critical yet underexplored problem: failing to address ambiguity leads to stereotypical, socially biased responses. Our results underscore the urgency of equipping models with robust strategies to deal with uncertainty without resorting to undesirable stereotypes.

arxiv情報

著者 Alberto Testoni,Barbara Plank,Raquel Fernández
発行日 2024-12-18 13:25:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク