要約
【タイトル】Vera: 一般目的の常識文の妥当性推定モデル
【要約】
– 言語モデルは高い能力があるが、おかしな常識的ミスを犯す可能性がある。
– Veraは常識的な知識に基づいて陳述文の妥当性を推定する汎用モデルである。
– Veraは19のQAデータセットと2つの大規模知識ベースから作成された約700万個の常識文からトレーニングされ、3つのトレーニング目標の組み合わせによって効果的に正解を分離する。
– Veraは既存の常識検証用に再利用できるモデルよりも優れた結果を示し、未知のタスクに対して一般化能力を発揮し、うまくキャリブレーションされた出力を提供します。
– VeraはLMによって生成された常識的な知識をフィルタリングするのに優れ、ChatGPTのようなモデルによって生成された誤った常識文を検出するのに役立ちます。
要約(オリジナル)
Despite the much discussed capabilities of today’s language models, they are still prone to silly and unexpected commonsense failures. We consider a retrospective verification approach that reflects on the correctness of LM outputs, and introduce Vera, a general-purpose model that estimates the plausibility of declarative statements based on commonsense knowledge. Trained on ~7M commonsense statements created from 19 QA datasets and two large-scale knowledge bases, and with a combination of three training objectives, Vera is a versatile model that effectively separates correct from incorrect statements across diverse commonsense domains. When applied to solving commonsense problems in the verification format, Vera substantially outperforms existing models that can be repurposed for commonsense verification, and it further exhibits generalization capabilities to unseen tasks and provides well-calibrated outputs. We find that Vera excels at filtering LM-generated commonsense knowledge and is useful in detecting erroneous commonsense statements generated by models like ChatGPT in real-world settings.
arxiv情報
著者 | Jiacheng Liu,Wenya Wang,Dianzhuo Wang,Noah A. Smith,Yejin Choi,Hannaneh Hajishirzi |
発行日 | 2023-05-05 17:15:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI