要約
統合されたマルチタスクおよびマルチドメインの自然言語の推論と説明のベンチマークである STREET を紹介します。
ほとんどの既存の質問応答 (QA) データセットとは異なり、モデルは質問に答えるだけでなく、質問の前提がどのように使用されて、特定の質問の正確性を証明できる中間結論を生成するかを説明する、段階的な構造化された説明を生成することも期待されます。
答え。
数ショット プロンプト GPT-3 や微調整された T5 などの一般的な言語モデルを使用して、広範な評価を行います。
このような構造化された推論ステップを生成するとき、これらのモデルは依然として人間のパフォーマンスよりも遅れていることがわかりました。
この作業は、コミュニティが多段階の推論と自然言語での説明についてシステムをより適切にトレーニングおよびテストする方法を提供すると信じています。
要約(オリジナル)
We introduce STREET, a unified multi-task and multi-domain natural language reasoning and explanation benchmark. Unlike most existing question-answering (QA) datasets, we expect models to not only answer questions, but also produce step-by-step structured explanations describing how premises in the question are used to produce intermediate conclusions that can prove the correctness of a certain answer. We perform extensive evaluation with popular language models such as few-shot prompting GPT-3 and fine-tuned T5. We find that these models still lag behind human performance when producing such structured reasoning steps. We believe this work will provide a way for the community to better train and test systems on multi-step reasoning and explanations in natural language.
arxiv情報
著者 | Danilo Ribeiro,Shen Wang,Xiaofei Ma,Henry Zhu,Rui Dong,Deguang Kong,Juliette Burger,Anjelica Ramos,William Wang,Zhiheng Huang,George Karypis,Bing Xiang,Dan Roth |
発行日 | 2023-02-13 22:34:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google