How to Choose How to Choose Your Chatbot: A Massively Multi-System MultiReference Data Set for Dialog Metric Evaluation

要約

私たちは、ダイアログのメトリクスと評価に関する今後の作業を可能にするために、大規模マルチシステムマルチリファレンスデータセットである MMSMR をリリースします。
対話評価のための自動指標は、人間の判断に対する堅牢な代用である必要があります。
ただし、堅牢性の検証は現時点では満足のいくものとは程遠いです。
堅牢性の相関を定量化し、テストセットに何が必要かを理解するために、単一参照の評価セットを拡張して 8 参照のダイアログデータセットを作成してリリースし、この新しい言語学習会話データセットを導入します。
次に、1750 システムをトレーニングし、新しいテストセットと DailyDialog データセットで評価します。
新しいテストセットをリリースし、さまざまなデータセット上の各システムのハイパーパラメーター、推論出力、メトリックスコアをモデル化します。

要約(オリジナル)

We release MMSMR, a Massively Multi-System MultiReference dataset to enable future work on metrics and evaluation for dialog. Automatic metrics for dialogue evaluation should be robust proxies for human judgments; however, the verification of robustness is currently far from satisfactory. To quantify the robustness correlation and understand what is necessary in a test set, we create and release an 8-reference dialog dataset by extending single-reference evaluation sets and introduce this new language learning conversation dataset. We then train 1750 systems and evaluate them on our novel test set and the DailyDialog dataset. We release the novel test set, and model hyper parameters, inference outputs, and metric scores for each system on a variety of datasets.

arxiv情報

著者	Huda Khayrallah,Zuhaib Akhtar,Edward Cohen,Jyothir S V,João Sedoc
発行日	2024-11-19 16:34:17+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

How to Choose How to Choose Your Chatbot: A Massively Multi-System MultiReference Data Set for Dialog Metric Evaluation

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー