要約
独自の LLM が優勢であるため、アクセスが制限され、情報プライバシーの懸念が生じています。
高性能のオープンソースの代替品は、情報に敏感な大量のアプリケーションにとって不可欠ですが、パフォーマンスが遅れていることがよくあります。
このギャップに対処するために、我々は、(1) 外部からの影響を排除した、反復的な自己批判と自己洗練の対象を絞らない変形を提案します。
(2) 新しいランキング指標 – パフォーマンス、洗練、および推論コスト スコア (PeRFICS) – 洗練されたパフォーマンスとコストを考慮して、特定のタスクに最適なモデルを見つけます。
私たちの実験では、7B ~ 65B のさまざまなサイズの SoTA オープンソース モデルが、平均してベースラインのパフォーマンスから 8.2% 向上することがわかりました。
驚くべきことに、Vicuna-7B などのメモリ使用量が極めて小さいモデルでも、Vicuna ベンチマークでは全体で 11.74% の向上が見られ、創造性の高いオープンエンドのタスクでは最大 25.39% の向上が見られます。
Vicuna-13B はさらに一歩進んで、改良後の ChatGPT を上回るパフォーマンスを発揮します。
この作業は、法外なコストをかけずに、パフォーマンスとプライバシーを犠牲にすることなく LLM を活用しようとする、リソースに制約があり情報に敏感な環境にとって、重大な意味を持ちます。
ケーススタディで証明されているように、ドメインに依存しない自己洗練プロセスと新しいランキング指標を組み合わせることで、モデル選択における情報に基づいた意思決定が容易になり、それによってコストが削減され、高性能の言語モデルへのアクセスが民主化されます。
要約(オリジナル)
The dominance of proprietary LLMs has led to restricted access and raised information privacy concerns. High-performing open-source alternatives are crucial for information-sensitive and high-volume applications but often lag behind in performance. To address this gap, we propose (1) A untargeted variant of iterative self-critique and self-refinement devoid of external influence. (2) A novel ranking metric – Performance, Refinement, and Inference Cost Score (PeRFICS) – to find the optimal model for a given task considering refined performance and cost. Our experiments show that SoTA open source models of varying sizes from 7B – 65B, on average, improve 8.2% from their baseline performance. Strikingly, even models with extremely small memory footprints, such as Vicuna-7B, show a 11.74% improvement overall and up to a 25.39% improvement in high-creativity, open ended tasks on the Vicuna benchmark. Vicuna-13B takes it a step further and outperforms ChatGPT post-refinement. This work has profound implications for resource-constrained and information-sensitive environments seeking to leverage LLMs without incurring prohibitive costs, compromising on performance and privacy. The domain-agnostic self-refinement process coupled with our novel ranking metric facilitates informed decision-making in model selection, thereby reducing costs and democratizing access to high-performing language models, as evidenced by case studies.
arxiv情報
著者 | Sumuk Shashidhar,Abhinav Chinta,Vaibhav Sahai,Zhenhailong Wang,Heng Ji |
発行日 | 2023-10-11 15:56:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google