Aligning a medium-size GPT model in English to a small closed domain in Spanish using reinforcement learning

要約

タイトル: 強化学習を用いた中規模GPTモデルの英語を、スペイン語の小規模なクローズドドメインに合わせる

要約:
– オープンドメインの英語でトレーニングされた中規模のGPTモデルを、スペイン語の小規模なクローズドドメインに合わせる方法を提案
– モデルを調整するために、質問応答タスク用に細かく調整する必要がある
– スコアリングと報酬モデルのニューラルネットワークをトレーニングし、システムの回答のデコーダーとジェネレータを改善するために使用
– BLEUやperplexityなどの数値的評価指標を使用して、人間の判断を含め、デコード技術を他のものと比較した
– 提案された方法が好ましい結果を示し、報酬モデルを使用して回答の生成を合わせることが可能であると結論付けられた。

要約(オリジナル)

In this paper, we propose a methodology to align a medium-sized GPT model, originally trained in English for an open domain, to a small closed domain in Spanish. The application for which the model is finely tuned is the question answering task. To achieve this we also needed to train and implement another neural network (which we called the reward model) that could score and determine whether an answer is appropriate for a given question. This component served to improve the decoding and generation of the answers of the system. Numerical metrics such as BLEU and perplexity were used to evaluate the model, and human judgment was also used to compare the decoding technique with others. Finally, the results favored the proposed method, and it was determined that it is feasible to use a reward model to align the generation of responses.

arxiv情報

著者 Oscar R. Navarrete-Parra,Victor Uc-Cetina,Jorge Reyes-Magana
発行日 2023-03-30 18:27:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク