Aligning a medium-size GPT model in English to a small closed domain in Spanish using reinforcement learning

要約

タイトル:
英語の中規模なGPTモデルを補強学習を用いて、スペイン語の小規模な閉域に合わせる方法

要約:
この論文では、オープンドメイン用に英語でトレーニングされた中規模なGPTモデルを、スペイン語の小規模な閉域に合わせるための手法を提案する。モデルは、質問応答タスク用に調整されている。このために、別のニューラルネットワーク(報酬モデルと呼ぶ)をトレーニングし、実装する必要がありました。このモデルは、適切な回答をスコアリングして判断することができます。このコンポーネントは、システムの回答のデコードと生成を改善するために役立ちました。モデルの評価にはBLEUやPerplexityなどの数値指標が使用され、人の判断もデコード手法を比較するために使用されました。最終的に、提案された手法が有利であり、報酬モデルを使って回答の生成を合わせることが可能であることが判明しました。

要点:
– 論文では、英語でトレーニングされた中規模なGPTモデルを、スペイン語の小規模な閉域に合わせる手法が提案されている。
– モデルは主に、質問応答タスク用に調整されている。
– 別のニューラルネットワーク(報酬モデルと呼ばれる)もトレーニングされ、導入された。このモデルは、適切な回答をスコアリングして判断することができます。
– BLEUやPerplexityなどの数値指標が使用され、人の判断もデコード手法を比較するために使用されました。
– 提案された手法が最も有効であることが判明しました。
– 記事によれば、報酬モデルを使用して回答の生成を合わせることができます。

要約(オリジナル)

In this paper, we propose a methodology to align a medium-sized GPT model, originally trained in English for an open domain, to a small closed domain in Spanish. The application for which the model is finely tuned is the question answering task. To achieve this we also needed to train and implement another neural network (which we called the reward model) that could score and determine whether an answer is appropriate for a given question. This component served to improve the decoding and generation of the answers of the system. Numerical metrics such as BLEU and perplexity were used to evaluate the model, and human judgment was also used to compare the decoding technique with others. Finally, the results favored the proposed method, and it was determined that it is feasible to use a reward model to align the generation of responses.

arxiv情報

著者 Oscar R. Navarrete-Parra,Victor Uc-Cetina,Jorge Reyes-Magana
発行日 2023-04-03 17:33:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク