How to Choose How to Choose Your Chatbot: A Massively Multi-System MultiReference Data Set for Dialog Metric Evaluation

要約

私たちは、ダイアログのメトリクスと評価に関する今後の作業を可能にするために、大規模マルチシステム マルチリファレンス データセットである MMSMR をリリースします。
対話評価のための自動指標は、人間の判断に対する堅牢な代用である必要があります。
ただし、堅牢性の検証は現時点では満足のいくものとは程遠いです。
堅牢性の相関を定量化し、テスト セットに何が必要かを理解するために、単一参照の評価セットを拡張して 8 参照のダイアログ データセットを作成してリリースし、この新しい言語学習会話データセットを導入します。
次に、1750 システムをトレーニングし、新しいテスト セットと DailyDialog データセットで評価します。
新しいテスト セットをリリースし、さまざまなデータセット上の各システムのハイパー パラメーター、推論出力、メトリック スコアをモデル化します。

要約(オリジナル)

We release MMSMR, a Massively Multi-System MultiReference dataset to enable future work on metrics and evaluation for dialog. Automatic metrics for dialogue evaluation should be robust proxies for human judgments; however, the verification of robustness is currently far from satisfactory. To quantify the robustness correlation and understand what is necessary in a test set, we create and release an 8-reference dialog dataset by extending single-reference evaluation sets and introduce this new language learning conversation dataset. We then train 1750 systems and evaluate them on our novel test set and the DailyDialog dataset. We release the novel test set, and model hyper parameters, inference outputs, and metric scores for each system on a variety of datasets.

arxiv情報

著者 Huda Khayrallah,Zuhaib Akhtar,Edward Cohen,Jyothir S V,João Sedoc
発行日 2024-11-19 16:34:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク