要約
イベントのダイナミクスを正確にモデル化する言語テクノロジは、常識的な推論を実行する必要があります。
常識的な推論を評価する既存の研究は、一般的な日常の状況について推論を行うことに焦点を当てています。
代わりに、異常で予期せぬ、ありそうもない状況をモデル化する能力を調査するために、非常識的なアブダクティブ推論のタスクを調査します。
予期せぬ結果を伴うコンテキストの一部が与えられた場合、このタスクでは、そのコンテキスト内で予期せぬ結果がより起こりやすくなる説明を生成するために、アブダクティブに推論する必要があります。
この目的を達成するために、私たちは UNcommonsense と呼ばれる新しい英語コーパスを作成し、リリースします。
私たちは、人間の説明者と最もパフォーマンスの高い大規模言語モデルとのパフォーマンスの違いを特徴づけ、モデルで強化された人間が書いた説明が、特異性と多様性の間のトレードオフによって最高の品質を達成することを発見しました。
最後に、このタスクに関してオープンでアクセス可能な言語モデルをトレーニングするために、いくつかの模倣学習アルゴリズムを実験します。
バニラの教師付き微調整アプローチと比較すると、これらの方法は、人間の評価者によって判断された一般的なおよび非常識なアブダクティブ推論の両方で損失率を一貫して削減します。
要約(オリジナル)
Language technologies that accurately model the dynamics of events must perform commonsense reasoning. Existing work evaluating commonsense reasoning focuses on making inferences about common, everyday situations. To instead investigate the ability to model unusual, unexpected, and unlikely situations, we explore the task of uncommonsense abductive reasoning. Given a piece of context with an unexpected outcome, this task requires reasoning abductively to generate an explanation that makes the unexpected outcome more likely in the context. To this end, we curate and release a new English language corpus called UNcommonsense. We characterize the performance differences between human explainers and the best-performing large language models, finding that model-enhanced human-written explanations achieve the highest quality by trading off between specificity and diversity. Finally, we experiment with several imitation learning algorithms to train open and accessible language models on this task. When compared with the vanilla supervised fine-tuning approach, these methods consistently reduce lose rates on both common and uncommonsense abductive reasoning judged by human evaluators.
arxiv情報
著者 | Wenting Zhao,Justin T Chiu,Jena D. Hwang,Faeze Brahman,Jack Hessel,Sanjiban Choudhury,Yejin Choi,Xiang Lorraine Li,Alane Suhr |
発行日 | 2024-05-01 05:12:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google