Suri: Multi-constraint Instruction Following for Long-form Text Generation

要約

指示フォローに関する既存の研究は主に、単純な指示と短い応答を伴うタスクに焦点を当てています。
この研究では、長い形式のテキストを生成するための複数の制約命令について検討します。
私たちは、人間が書いた 20,000 個の長文テキストと、複数の複雑な制約を含む LLM 生成の逆翻訳された命令を組み合わせたデータセットである Suri を作成します。
長文テキストに対する人間の好みの判断を収集することには法外な課題があるため、DPO などの好み調整アルゴリズムは私たちの設定では実行できません。
そこで、ORPO アルゴリズムに基づくアライメント手法である structional ORPO (I-ORPO) を提案します。
I-ORPO は、好ましくない応答から負のフィードバックを受け取る代わりに、LLM によって生成された合成的に破損した命令から負のフィードバックを取得します。
Suri を使用して、Mistral-7b-Instruct-v0.2 で教師あり I-ORPO 微調整を実行します。
結果として得られるモデル、Suri-SFT および Suri-I-ORPO は、品質を大幅に低下させることなく、基本モデルよりも大幅に長いテキスト (約 5K トークン) を生成します。
私たちの人間による評価では、SFT モデルと I-ORPO モデルは両方ともほとんどの制約を満たしますが、制約が一貫して有益に組み込まれているため、Suri-I-ORPO 世代が一般的に好まれていることが示されています。
コードは https://github.com/chtmp223/suri でリリースされています。

要約(オリジナル)

Existing research on instruction following largely focuses on tasks with simple instructions and short responses. In this work, we explore multi-constraint instruction following for generating long-form text. We create Suri, a dataset with 20K human-written long-form texts paired with LLM-generated backtranslated instructions that contain multiple complex constraints. Because of prohibitive challenges associated with collecting human preference judgments on long-form texts, preference-tuning algorithms such as DPO are infeasible in our setting; thus, we propose Instructional ORPO (I-ORPO), an alignment method based on the ORPO algorithm. Instead of receiving negative feedback from dispreferred responses, I-ORPO obtains negative feedback from synthetically corrupted instructions generated by an LLM. Using Suri, we perform supervised and I-ORPO fine-tuning on Mistral-7b-Instruct-v0.2. The resulting models, Suri-SFT and Suri-I-ORPO, generate significantly longer texts (~5K tokens) than base models without significant quality deterioration. Our human evaluation shows that while both SFT and I-ORPO models satisfy most constraints, Suri-I-ORPO generations are generally preferred for their coherent and informative incorporation of the constraints. We release our code at https://github.com/chtmp223/suri.

arxiv情報

著者 Chau Minh Pham,Simeng Sun,Mohit Iyyer
発行日 2024-06-27 17:50:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク