要約
メトリクスベースの評価の再実行は、特にコードとモデルのチェックポイントが元の作成者によって利用可能にされている場合、人間ベースの評価よりも簡単で、より近い結果が得られるはずです。
ただし、一連の単一属性および複数属性の制御可能なテキスト生成 (CTG) 技術のメトリックベースの評価を再実行するという私たちの取り組みに関するこのレポートが示すように、このような評価の再実行では、必ずしも元の結果と同じ結果が得られるわけではありません。
結果が表示され、元の作業の報告における誤りが明らかになる可能性があります。
要約(オリジナル)
Rerunning a metric-based evaluation should be more straightforward, and results should be closer, than in a human-based evaluation, especially where code and model checkpoints are made available by the original authors. As this report of our efforts to rerun a metric-based evaluation of a set of single-attribute and multiple-attribute controllable text generation (CTG) techniques shows however, such reruns of evaluations do not always produce results that are the same as the original results, and can reveal errors in the reporting of the original work.
arxiv情報
著者 | Michela Lorandi,Anya Belz |
発行日 | 2024-05-13 16:02:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google