ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning

要約

大規模な言語モデルでは、最終的な答えを正当化するために段階的な推論を生成するように求められた場合、下流タスクのパフォーマンスが向上します。
これらの推論ステップにより、モデルの解釈可能性と検証が大幅に向上しますが、自動評価の信頼できる方法がなければ、その正しさを (最終的な答えとは独立して) 客観的に調査することは困難です。
述べられた推論ステップが実際に最終的な最終タスクの予測をどの程度サポートするかはわかりません。
この研究では、以前のテキスト生成評価指標を改善および拡張する、解釈可能な教師なし自動スコアのスイートである ROSCOE を紹介します。
ベースライン指標に照らして ROSCOE を評価するために、推論エラーの類型を設計し、一般的に使用される推論データセットに関する合成評価スコアと人間による評価スコアを収集します。
既存の指標とは対照的に、ROSCOE は、ステップバイステップの理論的根拠の特性を活用することで、特に意味的一貫性、論理性、有益性、流暢性、事実性などの特性を測定できます。
私たちは、人間によるアノテーションが付けられた 5 つの診断データセットとプログラムによって摂動された 6 つの診断データセットでメトリクスの強度を実証的に検証し、推論スキルを必要とする多様なタスクのセットをカバーし、ROSCOE がベースライン メトリクスを常に上回るパフォーマンスを発揮できることを示しています。

要約(オリジナル)

Large language models show improved downstream task performance when prompted to generate step-by-step reasoning to justify their final answers. These reasoning steps greatly improve model interpretability and verification, but objectively studying their correctness (independent of the final answer) is difficult without reliable methods for automatic evaluation. We simply do not know how often the stated reasoning steps actually support the final end task predictions. In this work, we present ROSCOE, a suite of interpretable, unsupervised automatic scores that improve and extend previous text generation evaluation metrics. To evaluate ROSCOE against baseline metrics, we design a typology of reasoning errors and collect synthetic and human evaluation scores on commonly used reasoning datasets. In contrast with existing metrics, ROSCOE can measure semantic consistency, logicality, informativeness, fluency, and factuality – among other traits – by leveraging properties of step-by-step rationales. We empirically verify the strength of our metrics on five human annotated and six programmatically perturbed diagnostics datasets – covering a diverse set of tasks that require reasoning skills and show that ROSCOE can consistently outperform baseline metrics.

arxiv情報

著者 Olga Golovneva,Moya Chen,Spencer Poff,Martin Corredor,Luke Zettlemoyer,Maryam Fazel-Zarandi,Asli Celikyilmaz
発行日 2023-09-12 15:08:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク