A Comparison of LLM Finetuning Methods & Evaluation Metrics with Travel Chatbot Use Case

要約

この研究では、量子化低ランク アダプター (QLoRA)、検索拡張微調整 (RAFT)、およびヒューマン フィードバックからの強化学習 (RLHF) を含む大規模言語モデル (LLM) 微調整手法を比較し、さらに End を含む LLM 評価手法を比較します。
「Golden Answers」の to End (E2E) ベンチマーク手法、従来の自然言語処理 (NLP) メトリクス、RAG 評価 (Ragas)、OpenAI GPT-4 評価メトリクス、およびトラベル チャットボットのユースケースを使用した人間による評価。
旅行データセットは、旅行関連の会話プロンプトとパーソナライズされた旅行体験を取得するために旅行関連のサブレディットから投稿をリクエストすることによって Reddit API から取得され、微調整方法ごとに拡張されました。
微調整研究に利用される 2 つの事前トレーニング済み LLM、LLaMa 2 7B と Mistral 7B を使用しました。
QLoRA と RAFT は 2 つの事前トレーニング済みモデルに適用されます。
これらのモデルからの推論は、前述の指標に照らして広範囲に評価されます。
人間による評価と一部の GPT-4 メトリクスによると、最も優れたモデルは Mistral RAFT でした。そのため、これはヒューマン フィードバックからの強化学習 (RLHF) トレーニング パイプラインを受け、最終的に最良のモデルとして評価されました。
私たちの主な発見は次のとおりです: 1) 定量的指標と Ragas 指標は人間の評価と一致しない、2) Open AI GPT-4 評価は人間の評価と最も一致する、3) 評価のために人間を常に把握しておくことが不可欠である、4)
従来の NLP メトリクスでは不十分、5) Mistral は一般に LLaMa よりも優れたパフォーマンスを発揮、6) RAFT は QLoRA よりも優れたパフォーマンスを発揮しますが、依然として後処理が必要です、7) RLHF はモデルのパフォーマンスを大幅に向上させます。
次のステップには、データ品質の向上、データ量の増加、RAG 手法の検討、特定の都市にデータ収集を集中させることが含まれます。これにより、有用な製品を作成しながら、焦点を絞ることでデータ品質を向上させることができます。

要約(オリジナル)

This research compares large language model (LLM) fine-tuning methods, including Quantized Low Rank Adapter (QLoRA), Retrieval Augmented fine-tuning (RAFT), and Reinforcement Learning from Human Feedback (RLHF), and additionally compared LLM evaluation methods including End to End (E2E) benchmark method of ‘Golden Answers’, traditional natural language processing (NLP) metrics, RAG Assessment (Ragas), OpenAI GPT-4 evaluation metrics, and human evaluation, using the travel chatbot use case. The travel dataset was sourced from the the Reddit API by requesting posts from travel-related subreddits to get travel-related conversation prompts and personalized travel experiences, and augmented for each fine-tuning method. We used two pretrained LLMs utilized for fine-tuning research: LLaMa 2 7B, and Mistral 7B. QLoRA and RAFT are applied to the two pretrained models. The inferences from these models are extensively evaluated against the aforementioned metrics. The best model according to human evaluation and some GPT-4 metrics was Mistral RAFT, so this underwent a Reinforcement Learning from Human Feedback (RLHF) training pipeline, and ultimately was evaluated as the best model. Our main findings are that: 1) quantitative and Ragas metrics do not align with human evaluation, 2) Open AI GPT-4 evaluation most aligns with human evaluation, 3) it is essential to keep humans in the loop for evaluation because, 4) traditional NLP metrics insufficient, 5) Mistral generally outperformed LLaMa, 6) RAFT outperforms QLoRA, but still needs postprocessing, 7) RLHF improves model performance significantly. Next steps include improving data quality, increasing data quantity, exploring RAG methods, and focusing data collection on a specific city, which would improve data quality by narrowing the focus, while creating a useful product.

arxiv情報

著者 Sonia Meyer,Shreya Singh,Bertha Tam,Christopher Ton,Angel Ren
発行日 2024-08-07 05:52:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク