要約
この論文では、自然言語生成のための複数のテキスト品質を共同で最適化するための多重報酬強化学習の問題を研究します。
私たちはカウンセラーのリフレクション生成のタスクに焦点を当て、ジェネレーターを最適化して、生成されたカウンセラーの応答の流暢さ、一貫性、リフレクションの品質を同時に改善します。
DynaOpt と C-DynaOpt という 2 つの新しいバンディット メソッドを紹介します。これらは、報酬を 1 つの値に組み合わせて同時に最適化するという広範な戦略に依存しています。
具体的には、非コンテキストおよびコンテキストのマルチアーム バンディットを採用して、トレーニング中に複数の報酬の重みを動的に調整します。
自動評価と手動評価を通じて、私たちが提案する手法である DynaOpt と C-DynaOpt が既存のナイーブ ベースラインやバンディット ベースラインを上回るパフォーマンスを示すことを示し、言語モデルを強化する可能性を示しています。
要約(オリジナル)
In this paper, we study the problem of multi-reward reinforcement learning to jointly optimize for multiple text qualities for natural language generation. We focus on the task of counselor reflection generation, where we optimize the generators to simultaneously improve the fluency, coherence, and reflection quality of generated counselor responses. We introduce two novel bandit methods, DynaOpt and C-DynaOpt, which rely on the broad strategy of combining rewards into a single value and optimizing them simultaneously. Specifically, we employ non-contextual and contextual multi-arm bandits to dynamically adjust multiple reward weights during training. Through automatic and manual evaluations, we show that our proposed techniques, DynaOpt and C-DynaOpt, outperform existing naive and bandit baselines, showcasing their potential for enhancing language models.
arxiv情報
著者 | Do June Min,Veronica Perez-Rosas,Kenneth Resnicow,Rada Mihalcea |
発行日 | 2024-03-20 13:24:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google