要約
常識的な規範は状況によっては覆されます。通常、本を読むのは良いことですが、車を運転する場合はそうではありません。
コンテキストは言語で明示的に説明できますが、具体化されたシナリオでは、コンテキストは視覚的に提供されることがよくあります。
実行不可能な常識規範についてのこの種の視覚に基づいた推論は、一般に人間にとっては容易ですが、(私たちが示すように) 機械にとっては困難を伴います。これは、常識規範についての視覚的な理解と推論の両方が必要となるためです。
私たちは、視覚に基づいた常識規範を研究するための新しいマルチモーダルベンチマークである NORMLENS を構築します。
NORMLENS は、2K の多様な状況をカバーする自由形式の説明を伴う 10,000 の人間の判断で構成されており、次の 2 つの質問に対処するプローブとして機能します: (1) モデルは人間の平均的な判断とどの程度一致するか?
(2) モデルは予測された判断をどの程度説明できるか?
最先端のモデルの判断と説明が人間によるアノテーションとうまく整合していないことがわかりました。
さらに、大規模な言語モデルから社会常識の知識を抽出することにより、モデルを人間とより適切に調整するための新しいアプローチを紹介します。
データとコードは https://seungjuhan.me/normlens で公開されています。
要約(オリジナル)
Commonsense norms are defeasible by context: reading books is usually great, but not when driving a car. While contexts can be explicitly described in language, in embodied scenarios, contexts are often provided visually. This type of visually grounded reasoning about defeasible commonsense norms is generally easy for humans, but (as we show) poses a challenge for machines, as it necessitates both visual understanding and reasoning about commonsense norms. We construct a new multimodal benchmark for studying visual-grounded commonsense norms: NORMLENS. NORMLENS consists of 10K human judgments accompanied by free-form explanations covering 2K multimodal situations, and serves as a probe to address two questions: (1) to what extent can models align with average human judgment? and (2) how well can models explain their predicted judgments? We find that state-of-the-art model judgments and explanations are not well-aligned with human annotation. Additionally, we present a new approach to better align models with humans by distilling social commonsense knowledge from large language models. The data and code are released at https://seungjuhan.me/normlens.
arxiv情報
著者 | Seungju Han,Junhyeok Kim,Jack Hessel,Liwei Jiang,Jiwan Chung,Yejin Son,Yejin Choi,Youngjae Yu |
発行日 | 2023-10-16 14:00:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google